MedGemma

搜索文档
腾讯研究院AI速递 20250711
腾讯研究院· 2025-07-10 22:48
马斯克发布Grok4 - 马斯克发布Grok4,强调其在各种测试中表现优异,特别是在"人类终极考试"测试中超越竞品 [1] - Grok4训练方式转变,注重"第一性原理"思考能力,并在训练阶段就学会使用工具解决问题 [1] - Grok面临"机械希特勒"争议,其不审查不过滤理念虽吸引用户但也引发问题,AI对齐挑战尚未解决 [1] 微软开源Phi-4家族新版本 - 微软开源Phi-4-mini-flash-reasoning,采用创新的SambaY架构,推理效率提升10倍,延迟降低2-3倍 [2] - SambaY架构通过门控存储单元实现跨层高效记忆共享,无需显式位置编码,大幅提升长上下文处理能力 [2] - 新模型适用于算力受限设备,单GPU可运行,在高级数学推理和长文本生成方面表现优异,适合教育科研领域 [2] Perplexity上线AI浏览器Comet - Perplexity正式推出AI浏览器Comet,以"智能体搜索"为核心,与谷歌Chrome竞争 [3] - Comet三大价值主张包括个性化了解用户思维、强大易用的内容理解能力、提升效率减少标签切换 [3] - Comet功能丰富,可代替用户操作网页、智能处理内容、管理邮箱日历、搜索个人数据,目前支持Mac和Windows系统 [3] OpenAI收购io公司 - OpenAI完成对io公司收购,前苹果设计师Jony Ive及其团队LoveFrom正式加入,担任深度设计与创意职责 [4] - Ive可能将帮助OpenAI开发全新智能硬件产品,团队已经将初步想法转变为切实可行的设计 [5] - io公司由Ive与多位专家共同创立,汇集了硬件软件工程师、科学家等专家,将与OpenAI研发团队紧密合作 [5] 谷歌发布医疗AI新模型 - 谷歌发布医疗AI新模型:多模态MedGemma 27B与轻量级编码器MedSigLIP,扩展HAI-DEF医疗模型集合 [6] - MedGemma系列包含4B和27B两种规模,支持图文输入并生成文本输出,4B版在医学问答测试达64.4%准确率,27B版达87.7% [6] - MedSigLIP是仅含4亿参数的医疗图像编码器,通过多种医学影像调优,适用于图像分类、零样本分类和语义检索,为MedGemma提供视觉理解能力 [6] 腾讯公开征集AI设计师 - 腾讯"生肖企鹅"共创活动上线几小时内请求量飙升300%,tokens使用量翻倍,服务器紧急扩容 [7] - 活动邀请用户使用混元3D AI创作引擎设计2026年的"马鹅"手办,只需输入文字、上传图片或画草图即可生成 [7] - 优秀作品将有机会与腾讯联名量产并在官方周边商店上架,活动截止到2025年7月27日 [7] OpenAI开源模型计划 - OpenAI计划发布"开放权重模型",类似o3 mini级别,最快下周上线,将允许企业自行部署,这是自2019年以来首次开放模型权重 [8] - OpenAI正开发基于Chromium构建的AI浏览器,将在ChatGPT原生界面处理网页内容,支持AI代理直接执行任务,挑战Google Chrome [8] - OpenAI正全面扩张业务范围,从模型研发到浏览器等用户入口,战略布局已超出传统模型公司边界,显示其对技术领先和生态掌控的野心 [8] Hugging Face开源机器人 - Hugging Face与Pollen Robotics联合推出开源机器人Reachy Mini,起售价299美元,专为人机交互和AI实验设计 [10] - Reachy Mini提供基础版(299美元)和无线版(449美元)两种配置,支持Python编程,配备摄像头、麦克风和扬声器等多模态交互功能 [10] - 机器人高28厘米,重1.5公斤,提供15种预设行为,完全开源且可扩展,基础版预计2025年夏末发货,无线版将于2025年秋季起分批交付 [10] Meta发布具身智能报告 - Meta发布40页报告,首次将"心智世界模型"与物理世界模型并列为具身智能的关键组成部分 [11] - 心智世界模型关注人类的目标意图、情绪状态、社会关系和交流方式,使AI能理解人类心理状态并进行社会互动 [11] - Meta提出整合"观察学习"(系统A)和"行动学习"(系统B)的双系统架构,前者提供抽象知识,后者负责探索行动,以实现更高效的智能体学习 [11] AI产品"反框架"路线 - 顶级AI产品如Cursor、Perplexity和Lovable选择"反框架"路线,基于AI基本单元直接构建而非使用框架 [12] - 框架在快速变化的AI领域成为创新障碍,过度抽象导致臃肿、迭代缓慢,而基本单元提供可组合性和专业性 [12] - 基本单元方法(如Memory、Thread、Tools等)让开发者像搭积木一样构建AI产品,降低认知负担,提高性能和灵活性,更适应AI技术快速迭代 [12]
编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型
机器之心· 2025-07-10 16:35
行业动态 - xAI发布Grok 4大模型,引发AI社区高度关注 [1] - 谷歌同期更新Gemma系列模型,包括MedGemma和T5Gemma [2][3][5] MedGemma模型 - 包含4B和27B两种参数规模的多模态模型,专注于医疗AI应用 [3] - 能够根据医疗图像和文本描述辅助诊断并提供建议 [4] T5Gemma模型架构 - 采用编码器-解码器架构,包含32个不同变体 [8][9] - 基于Gemma 2框架,参数规模包括2B和9B [8] - 支持不同大小的编码器与解码器组合,如9B编码器配2B解码器 [18] 技术特点 - 使用"适应"技术将预训练的仅解码器模型转换为编码器-解码器架构 [15] - 支持PrefixLM和UL2两种训练目标 [8] - 在GSM8K数学推理任务上延迟显著降低 [22][23] 性能表现 - T5Gemma 9B-9B在GSM8K得分比Gemma 2 9B高出9分 [28] - 在DROP阅读理解任务上得分高出4分 [28] - 平均性能优于仅解码器架构 [30] - 指令微调后MMLU得分提高12分,GSM8K从58%提升至70.7% [31] 应用优势 - 在摘要、翻译、问答等任务中表现优异 [7] - 可根据任务需求灵活配置编码器-解码器规模 [19] - 在质量-效率边界上占据主导地位 [21][29]
伦敦大学学院Echo Zhang:AIGC是一面照见创意、价值与信任的镜子
环球网资讯· 2025-07-06 14:39
AIGC技术定义与发展 - 生成式人工智能(AIGC)指能够生成文本、图像、音乐和视频的算法工具,代表产品包括ChatGPT、Midjourney和DALL·E [2] - 人工智能发展经历四波浪潮:符号推理→统计学习→深度学习→当前AIGC作为"共创伙伴"阶段 [3] - AIGC被文化学者定义为"文化软件",正在重塑数字时代的文化表达与传播方式 [3] AIGC行业应用 教育领域 - AI可动态调整学习难度并按需生成个性化学习资料,提升教育包容性与灵活性 [4] - 主要风险包括学生过度依赖导致批判性思维弱化,以及技术分布不均加剧数字鸿沟 [4] 医疗领域 - AI生成诊断报告和图像分析工具显著提升医疗效率,例如Google DeepMind的MedGemma模型可处理多模态医疗数据 [4] - 商汤科技推出"大医"模型,具备生成医疗报告、解释诊断结果和模拟智能问诊功能 [4] AIGC社会影响 - 在媒体行业导致信息污染与虚假内容泛滥,创意产业面临AI作品版权归属争议 [5] - 对文字、设计、客服等岗位产生潜在替代效应,引发职场结构性变化 [5] - 核心挑战在于AIGC可能引发社会信任危机,需要建立技术应用的伦理框架 [5] AIGC发展理念 - 技术本质是数据重组而非创造,最大价值体现在人类与AI的协同创作场景 [3] - 需通过跨领域合作(技术+艺术)释放创意潜力,实现"更加人性化"的技术发展方向 [3][5]
第四期全球名校“Z世代”领袖连线活动举办 中外青年共话AI技术应用
环球网资讯· 2025-07-02 11:25
上海交通大学的华小文从教育技术的演变出发,回顾了在线教育从"电话授课"到"线上平台",再 到"VR+脑电波传感器"教学的飞跃。她强调,技术不应替代教师,而应强化学习者的个性表达与多元智 能的发展。她提及,芬兰等国家已在中小学引入AI课程,鼓励学生用所学知识参与全球议题,如可持 续发展目标(SDGs)与全球气候变化。此外,她也警示了"技术成瘾"现象,呼吁推动"正向上瘾"型教 育应用的开发,如语言学习应用多邻国。华小文总结道:"技术应该服务于创造力、合作与批判思维, 而不是制造懒惰与分裂。" 6月30日,第四期全球名校"Z世代"领袖连线活动顺利举行。此次活动汇聚了上海交通大学、香港理工大 学,以及伦敦大学学院、加州大学伯克利分校、墨尔本大学、奥克兰大学、悉尼大学等15所世界知名高 校的40余名青年代表,与相关领域的专家相聚云端,围绕"AI技术与未来应用"主题展开深入探讨。 青年对话环节,与会的"Z世代"代表们以跨界视角展开思维碰撞,围绕人工智能技术前沿与社会发展等 话题畅所欲言、各抒己见。 人工智能与多语言大模型领域的青年学者、前阿里巴巴通义团队核心研究员杨建以"人人可编程"为主题 进行分享,深度解析了代码智能技 ...
腾讯研究院AI速递 20250527
腾讯研究院· 2025-05-26 23:53
海光信息与中科曙光并购 - 海光信息通过换股方式吸收合并中科曙光,两家企业总市值合计超4000亿元 [1] - 海光为国产CPU及GPU龙头,中科曙光为服务器及算力基础设施龙头,两家有频繁关联交易 [1] - 此次重组旨在抢抓信息技术产业发展机遇,实现产业链互补,形成多元算力业务整合 [1] Lilian Weng新公司Thinking Machines - OpenAI前安全副总裁Lilian Weng分享其新公司产品——用于AI训练的手动调参仪表盘 [1] - Thinking Machines由多位OpenAI核心员工组建,未发表论文但估值已达90亿美元 [1] - OpenAI计划在2026年前推出能让ChatGPT"无处不在"的硬件设备 [1] Google基于Gemma模型的变体 - Google发布三款基于Gemma的模型变体:MedGemma、SignGemma和DolphinGemma,分别面向医疗、手语和动物语言领域 [2] - MedGemma包含4B多模态模型和27B文本模型,能处理医学图像分类、报告生成和临床文本推理,可在单GPU上运行 [2] - SignGemma用于手语翻译,DolphinGemma是400M参数模型,用于预测和生成海豚语言信号 [2] AI教育工具VideoTutor - VideoTutor面向K12教育,输入问题或主题后可自动生成类似可汗学院风格的短视频课程 [3][4] - 该工具提供结构化脚本、动态视觉效果和专业旁白,支持100多种AI语音和40多种语言,生成时间仅需1-3分钟 [3][4] - 技术结合大语言模型、AI动画引擎和高级文本转语音技术,覆盖数学、科学、语言等学科,支持个性化定制 [4] 企业微信智能机器人升级 - 企业微信"智能机器人"基于企业内部资料结合DeepSeek与混元等大模型深度思考回答员工问题 [5] - 新功能支持添加在线文档、微盘文件夹等到知识集,知识维护更灵活,并可通过API接口与业务系统打通 [5] - 支持单聊和群聊对话,企业管理员可在一分钟内配置专属智能机器人,适用于企业百事通、AI导师等多种场景 [5] 人形机器人格斗比赛 - 杭州举行全球首个人形机器人格斗比赛,机器人们展示打拳、闪避、肉搏等动作,采用三回合赛制 [6] - 最终小黑(AI策算师)击败小绿获得冠军,机器人们展示了直拳、勾拳、扫腿等十种动作组合 [6] - 格斗涉及机体设计、动作控制等多方面挑战,背后采集了职业搏击选手的数据,但仍由人类操控 [6] iOS 19设计更新 - 苹果将在WWDC 2025发布iOS 19等系统的重大设计更新,代号"Solarium",是自iOS 7以来最大规模的视觉更新 [7] - 新设计语言借鉴visionOS元素,使用更多透明度效果、新图标和修订导航方式,实现跨设备和操作系统的视觉统一性 [7] - 更新将涵盖iOS、macOS、watchOS和tvOS等系统,可能特征包括Frosted Glass元素、更圆润的"squircle"图标和浮动UI元素 [7] Anthropic对AI自动化的预测 - Anthropic核心技术成员Douglas预测,到2027-2028年,AI模型将有能力自动化几乎所有白领工作 [9] - Claude 4在软件工程领域表现突出,能处理极其模糊的需求,自主完成任务,AI工具已将资深工程师效率提升1.5-5倍 [9] - 未来趋势指向AI Agent普及,到2025年底,通用型AI Agent能处理各种浏览器内事务将变得明显 [9] 红杉中国推出Agent基准测试xbench - 红杉中国推出双轨评估体系"xbench",追踪AI模型的理论能力上限与Agent在真实场景的落地价值 [10] - xbench分为AGI Tracking与Profession Aligned两条路径,前者测试模型关键能力边界,后者关注垂直领域实际价值 [10] - 评估设计能跟踪Agent能力的技术-市场契合点(TMF),预测AI接管现有业务流程的时间点,分析成本效益与专业能力提升速度 [10]