机器之心
搜索文档
越狱成功率飙升至87.6%,南京大学联合美团、上交破解主流视频生成模型安全漏洞
机器之心· 2025-12-25 13:26
行业痛点:图生视频模型安全研究的核心缺口 - 图生视频技术融合图像与文本生成动态内容,但其安全防护体系脆弱,成为制约行业稳健发展的关键瓶颈[6] - 现有安全研究存在三大核心缺口:单模态攻击具有天然局限性,无法利用I2V模型的跨模态协同特性,导致攻击成功率低[8];静态攻击模式缺乏动态调整能力,难以应对输入多样性和动态防御机制[9];面临多模态协同与维度升级的双重挑战,文本-图像跨模态特性和图像到视频的时空复杂度构成安全可控落地的瓶颈[10] - 这些痛点导致I2V模型在商业化落地过程中面临潜在安全隐患,亟需专门针对其多模态特性的安全评估工具[11] 核心成果:RunawayEvil框架概述 - 研究团队提出了首个面向图生视频模型的多模态自进化越狱攻击框架RunawayEvil,该框架创新性采用「策略-战术-行动」核心范式,旨在破解传统攻击方法的局限性[2][3] - 该框架将I2V越狱比作一场作战,构建了完整的“作战指挥链”,由三大模块协同组成:SACU(战略感知指挥单元,指挥大脑)、MTPU(多模态战术规划单元,战术参谋)和TAU(战术行动单元,执行者)[14] - 框架采用两阶段流水线:进化阶段专门训练SACU,使其能扩展策略库并智能选择策略;执行阶段则由SACU给出策略,MTPU翻译成跨模态战术指令,TAU负责执行并反馈结果[15] 技术架构:三大核心模块详解 - **SACU(指挥大脑)**:包含三个关键组件。策略定制智能体使用强化学习,根据多目标奖励(越狱成功、文本隐蔽性、图像隐蔽性)学会为不同输入选择最优策略[17];策略探索智能体基于LLM,利用历史成功案例生成新策略,避免策略僵化[18];策略记忆库结构化存储每次成功的“作战记录”,为后续进化提供参考[19] - **MTPU(战术参谋)**:负责将SACU给出的策略翻译成跨模态协同的战术指令对(文本侧+图像侧)[21]。其采用记忆增强检索机制,优先从策略记忆库中检索相似的成功经验来生成指令,否则才从头生成,确保战术的针对性和有效性[21] - **TAU(执行者)**:由执行器和安全评估器组成。执行器根据图像侧战术指令对参考图进行迭代编辑;安全评估器对生成视频进行安全判定,并将成功记录写回策略记忆库,形成可复用经验[23][27] - 三大单元构成动态闭环,执行结果(成功或失败)都会反馈给SACU,驱动策略库的持续进化与优化,使框架成为一个能够持续学习和增强的对手[24][25][26] 实验验证:攻击效能与领先性 - 实验在COCO2017(5000组训练样本、200组测试样本)与MM-SafetyBench(5040组跨场景图文对)数据集上进行,针对4个主流开源I2V模型(Open-Sora 2.0、CogVideoX-5bI2V、Wan2.2-TI2V-5B、Dynamicrafter)发起攻击,并使用三种安全评估器确保评估全面[29] - **攻击成功率显著领先**:在COCO2017数据集上,传统方法的攻击成功率峰值不足50%(例如PGJ在CogVideo-LLaVA上为47.0%),最低仅为6.5%(Sneaky在DynamiCrafter-Gemma上)。而RunawayEvil在全部24组测试设置中均排名第一,持续领跑所有对比方法[29]。具体数据如:在Wan模型上,RunawayEvil对Qwen、LLaVA、Gemma评估器的攻击成功率分别为86.0%、81.0%、93.0%,远高于传统方法[30] - **强泛化性验证**:在MM-SafetyBench数据集上,RunawayEvil同样展现出高攻击成功率,例如在Wan模型上对三种评估器的成功率分别为78.0%、84.0%、81.0%,与其它方法相比保持竞争力[30] - **可视化效果领先**:可视化实验表明,相比于传统单模态越狱方法,RunawayEvil能有效突破图生视频模型的跨模态防御机制,生成更具毒性的NSFW视频[30] 总结与行业意义 - RunawayEvil作为首个针对I2V生成模型的多模态自进化越狱框架,在主流I2V模型与安全评估器上实现了**87.6%的平均攻击成功率**,显著超越现有方法[36] - 该框架为I2V模型漏洞分析提供了高效可靠的工具,为构建更稳健、安全的视频生成系统提供了助力,也为稳健的多模态生成安全体系奠定了基础[3][36] - 未来工作将适配更多I2V模型与复杂任务场景,基于揭示的漏洞特征探索针对性防御机制,并深化模态协同策略的精细化优化,旨在提升攻击隐蔽性的同时,设计出多模协同的高效防御方案[36]
腾讯按下AI加速键,人才、组织、开源动作密集
机器之心· 2025-12-25 13:26
公司战略与组织变革 - 公司在2025年末于AI领域动作密集,按下发展加速键[2] - 引进前OpenAI研究员、清华校友姚顺雨担任首席AI科学家,直接向总裁汇报[2] - 升级大模型研发架构,成立AI Infra部、AI Data部及数据计算平台部,全面强化研发体系[4] - 战略路径清晰:通过顶尖研究与扎实工程的深度咬合,为用户打造真正好用的AI[6] 模型能力与技术迭代 - 发布并开源国内首个可实时交互的混元世界模型1.5(WorldPlay)[5] - 混元2.0采用MoE架构实现推理效率领先,在复杂指令遵循和文本创作上表现国内领先[6][9] - 在3D生成领域,腾讯混元3D系列模型成为全球最受欢迎的开源3D模型之一,社区下载量超过300万[6][9] - 推出混元3D 3.0,将建模精度提升了3倍[9] - 姚顺雨同时负责模型与Infra,这种一体化管理有助于加强算法研发与底层算力之间的互融[9] 工程化能力与基础设施 - 通过软硬一体化策略,针对星脉网络与高性能存储进行专项调优,将模型训练综合性能提升了30%[12] - 腾讯云将支撑大规模训练的同源技术能力沉淀为TI平台,核心解决模型训不动、调不准的工程挑战[12] - TI平台支持算力潮汐调度,实现了从数据处理到部署的全链路打通,提供标准化的工业级生产流水线[12] 开源工具与组件 - 腾讯优图实验室开源系列小而美的模型能力,针对性解决大模型落地的工程痛点[13] - 即将开源Youtu-Parsing,可针对复杂文档完成从全局到局部的精细化处理,提取图表、文本块、数学公式、表格等关键元素[14] - 开源Youtu-embedding和Youtu-graphrag组合,前者赋予AI在海量知识库中精准定位的能力,后者通过知识图谱技术将碎片化信息串联成逻辑链条[14] - 开源Youtu-agent框架,可根据自然语言描述自动创建任务所需的工具并配置相应的智能体,具备“自我进化”能力[14] - 该框架在WebWalkerQA评测中,基于DeepSeek-V3.1达到71.47%的准确率,刷新开源效果SOTA[17] - 在GAIA(文本子集)测试中,基于DeepSeek-V3的Pass@1指标达到72.8%[17] 平台与产品 - 腾讯云推出智能体开发平台(ADP),企业可通过“低代码”或“无代码”方式在几分钟内构建专属AI应用[20] - 最新发布的ADP版本支持对接第三方数据库和工作流,并新增应用评测工具[20] 行业应用与落地案例 - 公司的AI能力已在多个垂直领域实现规模化落地[21] - 在金融领域,东吴人寿依托腾讯云ADP构建智能体平台,理赔处理时效从传统人工审核的3-5天骤降至3分钟以内,预计每年支撑上万起理赔案件[22] - 在传媒领域,广东广播电视台基于ADP打造“AI内容服务平台”,全运会期间累计辅助生产了百余条爆款内容,整体效率提升40%[23] - 在企业营销侧,绝味食品基于ADP打造的营销云Agent,其活动内容点击率比人工专家高出40%,支付转化率是人工组的2.4倍,交易金额达到3.1倍[23] - 在能源与制造领域,协助训练的电力视觉大模型有效适应不同电网场景,保障电力生产安全[23] - 在医疗健康领域,腾讯健康小程序里的AI健康管理助手已能自动解读体检报告,并为用户制定个性化健康管理计划[23]
TPU惹急黄仁勋,200亿美元拿下「TPU之父」核心团队、技术授权
机器之心· 2025-12-25 11:12
文章核心观点 - 英伟达与AI芯片初创公司Groq达成一项价值约200亿美元的非排他性许可协议,实质是通过“反向收购雇佣”获取其核心团队与LPU芯片技术,以应对谷歌TPU等竞争对手在AI推理市场的挑战[1][3][4] 交易详情与结构 - 交易形式为“反向收购雇佣”,英伟达未直接收购Groq公司,而是获得了其创始人兼CEO Jonathan Ross、总裁Sunny Madra及多名核心工程师,并许可其技术[3][4] - 交易价值约200亿美元,比Groq在2025年9月的估值高出131亿美元[3] - 交易后,Groq将继续作为独立公司运营,由原CFO Simon Edwards接任CEO,其GroqCloud云服务保持正常运行[4] Groq公司背景与技术优势 - 公司由前谷歌TPU核心开发者Jonathan Ross于2016年创立,创始团队包括原TPU核心10人团队中的7位[3][7] - 核心产品为自主研发的LPU芯片,专为AI推理设计,其核心理念是“软件定义的确定性”,通过编译器精确调度,消除缓存未命中等传统架构问题[9] - LPU采用集成SRAM方案,单芯片内存带宽高达80TB/s,是传统HBM方案的20倍以上,但单芯片容量较小(约230MB)[11] - 采用RealScale互联技术,可实现数百张芯片级联协同工作,宛如一枚虚拟芯片[11] - 在处理大语言模型推理时,响应速度可达每秒500 Tokens,远高于ChatGPT的约40 Tokens/s,且延迟抖动极低[11] - 为换取极致速度,其方案在物理空间和功耗上代价较高,一个标准机架满载功耗约为26kW至30kW,且需要比GPU方案更多的机架数量[12] 市场竞争格局与英伟达的动机 - AI算力市场需求正从训练转向推理,预计到2030年,推理将占AI计算总量的75%,市场规模达2550亿美元[14] - 谷歌TPU v7在推理市场构成挑战,其实际模型算力利用率高,总体拥有成本据称比英伟达GB200系统低约30%~40%,并计划在2027年实现年产500万颗的目标[14] - 谷歌TPU已开始大规模对外出货,2025年10月Anthropic协议获取超10亿瓦谷歌算力,11月Meta洽谈于2027年在其数据中心使用谷歌TPU[14] - Groq作为竞争对手已取得市场进展:2025年2月与沙特阿美数字公司签订15亿美元协议,合作建设全球最大AI推理数据中心,初期部署19000个LPU处理器;2025年12月加入美国AI“创世纪计划”[15] - Groq于2025年9月完成7.5亿美元融资,估值达69亿美元,其平台已服务超过200万名开发者,较去年的35.6万人增长五倍多[16] 交易影响与英伟达的整合计划 - 英伟达CEO黄仁勋计划将Groq的低延迟处理器整合到英伟达AI工厂架构中,以支持更广泛的AI推理和实时工作负载[5] - 此次交易旨在帮助英伟达巩固其在面临谷歌TPU等挑战下的AI芯片霸主地位[13][18]
刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架
机器之心· 2025-12-25 11:12
行业技术范式转移 - 端到端自动驾驶正经历从“模块化”向“大一统”的范式转移,VLA模型兴起[2] - 主流自回归生成范式存在局限性,其“从左到右”的时序逻辑与人类驾驶员“以终为始”的思维直觉存在本质差异[2] - 基于模仿学习的模型易陷入“平均司机”陷阱,倾向于拟合数据分布均值,导致策略平庸化,难以在激进与保守间灵活切换[2] 核心解决方案:WAM-Diff框架 - 复旦大学与引望智能联合提出WAM-Diff框架,旨在解决现有痛点[2] - 框架创新性地将离散掩码扩散模型引入VLA自动驾驶规划,并结合稀疏混合专家架构与在线强化学习[2] - 构建了一套不再受限于单向时序的生成式规划系统[2] 核心技术创新:生成逻辑与架构 - 引入混合离散动作分词技术,将连续2D轨迹坐标量化为高精度离散Token,误差控制在0.005以内,并与语义Token置于共享词表[6] - 采用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有位置Token,提升推理效率与全局优化能力[6] - 集成LoRA-MoE架构,包含64个轻量级专家,通过门控网络实现动态路由与稀疏激活,根据场景自动激活最匹配专家以提升容量与适应性[11] - 采用多任务联合训练策略,使模型在学习轨迹预测同时通过驾驶VQA任务理解场景语义,增强规划可解释性与泛化能力[11] 核心技术创新:规划策略与优化 - 探索因果序、反因果序和随机序三种解码调度策略,实验发现反因果序策略在闭环指标上表现最佳[9] - 反因果序策略验证了“以终为始”的生成逻辑,即先确定终点状态再倒推轨迹细节,能显著提升规划一致性与安全性[9] - 引入分组序列策略优化算法,将优化粒度从“单步Token”提升至“完整轨迹序列”,依据安全、合规及舒适等多维指标对整条轨迹评分[14] - GSPO通过计算组内相对优势,显式引导模型向“高安全、高舒适”区域更新,确保规划结果比人类驾驶数据更安全规范[14] 性能表现与实验结果 - 在NAVSIM-v1评测基准上取得91.0 PDMS的SOTA成绩[3][16] - 在NAVSIM-v2评测基准上取得89.7 EPDMS的SOTA成绩,相较于DiffusionDrive提升5.2分[3][18] - 在NAVSIM-v1详细对比中,多项指标领先:NC 99.1, DAC 98.3, TTC 96.5, Comf. 99.9, EP 84.4, PDMS 91.0[17] - 在NAVSIM-v2详细对比中,多项指标领先:NC 99.0, DAC 98.4, DDC 99.3, TLC 99.9, EP 87.0, TTC 98.6, EPDMS 89.7[19] - 消融研究证实反因果序解码策略取得最佳闭环性能(91.0 PDMS),支持“以终为始”的规划直觉[20][21] - 定性实验验证了MoE架构与GSPO在提升长尾场景鲁棒性方面的作用[22] 行业意义与影响 - WAM-Diff标志着端到端自动驾驶规划向离散化、结构化、闭环化迈出重要一步[25] - 该框架通过Masked Diffusion重构时序生成逻辑,利用MoE解决策略单一性瓶颈,通过RL守住安全底线[25] - 证明了在VLA时代,“如何生成”与“生成什么”同样重要[25] - 这种具备反向推理能力且风格多变的规划器,被认为是通往L4级自动驾驶的关键拼图[25]
V-Thinker: 让模型像人一样「边画边想」
机器之心· 2025-12-25 09:20
研究背景与目标 - 人类解决复杂视觉问题时,视觉交互是重要的认知工具,例如在几何解题中添加辅助线或在常识推理中添加标注[3] - 早期研究如LLaVA-Plus、Visual Sketchpad开始探索在推理过程中引入视觉操作,强化学习方法的引入显著提升了模型在复杂视觉场景中的表现[3] - 后续工作如o3、DeepEyes、Thyme表明,模型可以在强化学习引导下自主生成代码,通过放大、裁剪、旋转等操作与图像交互,实现基于图像思考的推理范式[3] - 研究团队提出核心问题:模型是否能像人一样,在推理过程中实现“边画边思考”的视觉推理范式[3] 核心方法与框架 - 提出V-Thinker,一个面向视觉交互推理的多模态推理框架,通过冷启动监督微调与强化学习相结合的训练,使模型能在推理过程中自主生成代码并与图像交互,实现“边画边思考”[3] - 核心思想是“让模型充当造题者,而非解题者”,通过数据演化飞轮自动合成、演化并校验视觉交互推理数据[8][10] - 设计了一套渐进式视觉训练范式,首先构建V-Perception-40K数据集提升模型的视觉感知能力,再通过结合监督微调与强化学习的两阶段训练,使模型掌握基于视觉交互的推理能力[3][16][18] 数据构建与演化 - 提出Data Evolution Flywheel(数据演化飞轮),能在多样性、质量与难度三个维度上自动合成、演化并校验视觉交互推理数据[3] - 通过引导GPT-5生成依赖视觉交互的推理问题,发现其生成的代码能渲染出结构、语义一致的高质量图像,并与推理过程保持良好一致性[10] - 从初始知识点和工具集合出发,通过循环迭代,最终召回了超过2万个新知识点,覆盖数学、物理、音乐等25个领域[12] - 构建了Checker对问题与答案、原始图像、视觉操作后的图像进行一致性校验,并引入拓展器通过重构问题来提升问题难度和增加视觉交互轮次[12] - 最终构建并开源了大规模交互推理数据集V-Interaction-400K,为视觉交互推理和图像到代码转换等任务提供了基础支撑[3][13] 训练策略 - 第一阶段(感知能力):构建感知数据集V-Perception-40K,通过视觉元素关系、元素数量及知识点进行建模,并设计不同层级的问题进行自动合成感知数据,以此训练模型的细粒度定位能力[16] - 第二阶段(交互推理能力):采用“SFT + GRPO”的训练策略,使模型逐步具备稳定的视觉交互推理能力[18] - 冷启动阶段通过V-Interaction-400K实现初步对齐[21] - 强化学习阶段从V-Interaction-400K中采样了3千条数据,并从We-Math 2.0、MMK12、ThinkLite等开源工作中进行采样,构成训练数据[21] - 训练框架与奖励函数遵循Thyme的架构与设定,引导模型在推理过程中生成并执行视觉操作代码,在Sandbox中执行代码并返回操作后的图片再次输入至模型进行后续推理[21] 评测体系与结果 - 构建了VTBench,一个面向视觉交互推理场景的专家标注基准,聚焦于必须通过与图像交互才能完成的问题[3][20] - 所有样本来自多个公开数据集及公共平台,并由人工进行标注,通过人工投票筛选确保视觉交互是解题所必需[20] - VTBench从推理过程的不同阶段出发,构建了三种任务:对视觉元素的感知能力、在明确指令下执行视觉操作的能力,以及在推理过程中面向需要视觉交互任务的解题能力[23] - 定量分析显示,V-Thinker-7B在VTBench的三类交互任务中均显著优于基线模型,平均准确率达30.2%,相比Qwen2.5-VL-7B提升12.5个百分点[24] - 在Instruction-Guided Interaction场景中,V-Thinker性能提升超过22.8个百分点[24] - 在通用视觉推理基准中,V-Thinker在MathVision等复杂多步推理任务上取得6.3个百分点的性能提升[24][25] 能力分析与影响 - 交互式视觉推理能力显著提升,V-Thinker能够稳定生成符合问题需求的图像编辑操作,如绘制辅助线、标注关键区域或完成结构化重绘[26] - 在部分不强制要求视觉交互的任务中,模型亦会主动对图像进行标注以辅助中间推理过程,表明视觉交互已逐渐内化为其推理策略的一部分[26] - 强化学习多路径交互探索能力显著增强,V-Thinker在同一图像条件下能生成多样化的交互路径,覆盖更广泛的解空间,提升了模型的可解释性[29] - 推理过程可视化与可解释性提升,模型能在推理过程中自主生成并执行图像编辑代码,即时渲染中间结果,将文本推理过程外化为可观察的视觉中间过程[31] 数据飞轮效果与知识演化 - 数据飞轮驱动的知识体系持续扩展,从初始知识点出发,最终形成覆盖25个领域、24,000余个知识点的层次化知识体系[36] - 随着演化轮次增加,知识点与视觉工具数量呈现明显的非线性增长趋势,在五轮演化后整体规模扩展至初始种子的约50倍[38] - 更丰富的初始知识点或工具集合能够带来更优的演化轨迹,凸显了初始种子多样性在数据飞轮持续演化过程中的重要作用[38] 总结与行业意义 - V-Thinker推动了“Thinking with Images”方向的发展,展示了模型不仅可以“看图推理”,还可以在推理过程中自主生成并执行代码,与图像进行交互,实现真正意义上的“边画边思考”[40] - 通过引入代码驱动的视觉交互机制、数据演化飞轮以及渐进式训练范式,V-Thinker不仅在数学任务中展现出了交互能力,更在通用场景展现出了泛化能力[40] - 随着模型规模和能力的持续提升,推理范式及应用场景将有全新的发展可能性,数据构建范式有望进一步演化,模型充当造题者或许具备创造知识的可能性[40] - 该工作首月数据下载次数突破10K+,在X平台上获得了一定的关注度[5]
微软定目标:2030年,彻底删除C、C++代码,换成Rust
机器之心· 2025-12-25 09:20
微软的编程语言转型战略 - 微软一位杰出工程师设定了在2030年前从公司代码库中彻底删除C和C++语言的目标[2][4] - 该计划的核心策略是结合人工智能与算法,对微软整个代码库进行大规模重写[4] - 用于替代C和C++的主要新编程语言是Rust[5] 转型计划的执行目标与方法 - 工程师团队设定了极高的生产力目标:每位工程师每月需完成100万行代码[4] - 为实现此目标,公司正在构建包括算法设施和智能体驱动的AI处理设施在内的基础设施,以实现代码转换的规模化[4] - 目前,此类基础设施已大规模应用于代码理解等任务[4] 公司对Rust语言的长期投入 - 近6年以来,微软一直积极提倡使用Rust语言[11] - 公司已通过“windows-rs”等项目让Rust开发者能够使用Windows API,表明其优化Rust并非一次性工作[11] - 微软还开展了Rust驱动程序开发项目,探索其在应用程序之外的更广泛应用[11] AI在代码生成中的当前角色与未来展望 - 微软首席执行官透露,目前公司已有20-30%的代码是由人工智能生成的[13] - 公司首席技术官预计,到2030年,高达95%的代码将由人工智能生成[15] - 然而,当前AI在生成不同编程语言代码方面的进展不一,例如在Python上进展较大,而在C++上则相对较小[13] 转型计划面临的挑战与争议 - 微软计划重写的代码基础规模巨大,例如全球超过14亿用户使用的Windows操作系统主要由C语言编写[12] - C语言驱动着Windows内核和底层组件的大部分,包括Windows API,而C++则用于构建原生Windows应用程序[12] - 过去,微软试图用其他语言取代C++等原生语言的尝试并未获得广泛认可,有时甚至导致如内存占用过高等新问题[11] - 有观点认为,快速重写经过长期实践检验的代码,并在未经充分测试的情况下采用,可能不会给用户带来立竿见影的好处[10] - 该计划的前提是默认Rust代码在各方面都更优且无缺陷,这一假设存在争议[10]
北航提出代码大模型的 Scaling Laws:编程语言差异与多语言最优配比策略
机器之心· 2025-12-24 17:30
研究核心观点 - 代码大模型预训练的传统惯性思维是将所有编程语言视为同质文本,但现代软件开发本质是多语言混合的,忽略语言差异会导致性能预测偏差和算力浪费 [2] - 研究团队通过大规模实验,建立了区分语言特性的Scaling Laws,并提出了一套数学可解的最优数据配比方案,以指导更高效的模型训练 [2] 语言特异性与训练动力学差异 - 研究挑战了“所有语言生而平等”的假设,通过为七种主流语言单独拟合Scaling Law,发现不同语言的训练动力学存在显著差异 [7] - Python作为动态解释型语言表现出更高的Scaling指数,意味着随着模型参数和数据的增加,其性能提升幅度最大,潜力巨大 [7] - Rust作为强类型编译型语言,模型能更快掌握其模式,在较小规模下即可达到较低Loss,但也更快进入性能饱和期,边际收益递减较快 [7] - 通过“不可约Loss”量化语言内在复杂度,各语言内在可预测性排序为:C < Java ≈ Rust < Go < TypeScript < JavaScript < Python,Python因其极高的灵活性和多样表达方式,内在熵值最高,最难被模型学透 [7] 多语言混合训练的协同效应 - 研究构建了协同增益矩阵,量化引入辅助语言对目标语言性能的影响,发现绝大多数语言能从多语言混合训练中获益,且收益大小与语法相似度高度相关 [10] - 协同效应存在非对称性:Java是多语言训练的最大受益者,几乎与任何语言混合都能大幅降低其Loss;Python是通用“供体”,但其自身从其他语言获得的收益相对有限,甚至在某些情况下会出现轻微负迁移 [10] - 协同增益矩阵数据显示,Java在与C混合时,Loss从0.79降至0.72,降幅达12.41% [11] 跨语言翻译的数据组织策略 - 论文对比了“随机打乱”和“并行配对”两种数据组织策略,后者将代码与其翻译版本拼接在同一Context中输入模型 [12] - 实验结果表明,并行配对策略在所有模型规模上均显著优于基线,它利用长上下文窗口构建了隐式的文档级对齐信号 [12] - 并行配对策略激发了模型的Zero-Shot泛化能力,例如,仅训练Python↔Java和Python↔Go配对数据的模型,在测试从未见过的Java↔Go翻译任务时,表现出了惊人的组合泛化能力 [12] 基于Scaling Laws的最优Token分配策略 - 基于研究发现,论文提出了“科学配比的多语言Scaling Law”,这是一套在固定算力预算下指导算力投资的行动指南 [15] - 最优策略遵循边际效用最大化原则,具体包括:1) 重仓高潜力语言,大幅增加Python的Token占比;2) 平衡高协同组合,如保持JavaScript和TypeScript的适度比例;3) 削减早熟语言投入,适当减少Rust和Go的数据占比 [17] - 实验验证显示,采用这种“引导式分配”策略训练出的1.5B模型,在多语言代码生成和翻译任务上,均稳定优于均匀分配的基线模型,且没有语言因数据减少而出现显著性能退化 [16] 对行业实践的启示 - 这项研究是代码大模型领域一次重要的“去魅”过程,证明编程语言在模型训练视角下绝非同质 [19] - 对于训练Code LLM的团队,数据工程的重点应从单纯的“清洗与去重”转向更宏观的“成分配比” [19] - 理解不同语言的Scaling特性及它们之间的协同关系,能在有限算力预算下训练出综合能力更强的基座模型,这是资源配置效率的提升 [19]
谁还敢说谷歌掉队?2025年,它打了一场漂亮的翻身仗
机器之心· 2025-12-24 17:30
公司核心AI战略与年度表现 - 公司在2025年通过一系列里程碑式发布,成功扭转了此前在AI大模型领域“掉队”的舆论印象,证明其AI能力已从聊天机器人进化为能写代码、做科研、攻克科学难题的“合作伙伴”[1] - 公司展现了强大的“系统性工程能力”,在算力、模型、应用各层面实现突破,利用其全栈生态完成了补课与追赶,在AI竞争转向产业链落地的下半场展现出核心竞争力[51] AI模型进展 - **旗舰模型Gemini 3**:于11月正式发布,被视为公司目前的巅峰之作,在模型推理、多模态理解及运行效率上实现实质性跨越[10] - **逻辑推理**:Gemini 3 Pro在Humanity‘s Last Exam测试中取得37.5%的准确率(无工具),使用搜索和代码执行后提升至45.8%[12] - **数学能力**:在MathArena Apex测试中以23.4%的准确率刷新纪录[10] - **多模态理解**:在MMMU-Pro测试中达到81.0%的准确率[12] - **代码能力**:在LiveCodeBench Pro测试中获得2439的Elo评分[12] - **高性价比模型Gemini 3 Flash**:于12月发布,其综合质量超越前代Gemini 2.5 Pro,但成本大幅降低,输入价格为每百万token 0.50美元,输出价格为每百万token 3.00美元[13][14] - **开源模型Gemma 3**:实现从纯文本到多模态的转型,成为开发者在本地部署高性能AI的首选工具之一,特别是8月发布的Gemma 3 270M参数模型,以极小规模提供超高效率[15] 硬件与算力突破 - **第七代TPU Ironwood**:于4月发布,专为推理时代设计,单芯片内存带宽达7.2 TB/s,显存容量达192GB,峰值计算能力达4614 TFLOPs[33] - **集群算力**:每个Pod扩展至9216块芯片时可提供42.5 exaflops的AI算力,远超全球最快超级计算机El Capitan的1.7 exaflops[33] - **生产目标**:计划到2027年实现年产500万颗TPU的目标,已获得如Anthropic等客户超过100万颗的预订[34] - **量子计算**:Quantum Echoes(量子回声)算法于10月登上《Nature》,在量子处理器上实现首次可验证的量子优越性,能以比最快超级计算机快13000倍的速度解决特定问题[31] 产品与应用重构 - **AI Agent与协作**:推动AI从辅助工具向“核心效能”跨越,通过在全线产品注入Agentic能力,重新定义人机协作[18] - **软件开发**:11月发布的Google Antigravity将开发流程从“工具辅助”升级为“智能体协作”[18] - **搜索**:3月扩展AI Overviews并引入全新AI Mode,重塑信息获取与处理方式[20] - **硬件终端**:8月发布的Pixel 10深度整合AI原生功能,成为最智能实用的手机[20] - **研究助手**:11月NotebookLM加入Deep Research功能,进化为专业级智能研究助手[20] - **创意生成与媒体** - **视频生成**:5月发布的Veo 3首次实现原生音频生成,终结AI视频“默片时代”;10月Veo 3.1版本提升物理一致性并强化“首尾帧控制”功能[22] - **图像生成**:8月Nano Banana以高指令遵循能力解决细节丢失问题;11月Nano Banana Pro引入“深度思考”模式,实现高保真文字渲染与专业级构图[23] - **机器人技术** - **Gemini Robotics**:3月推出,通过融合视觉、语言和动作模态,首次实现“感知-决策-动作”全闭环操作[37] - **Gemini Robotics 1.5**:9月发布,初步具备类人思考规划能力,通过ER模型与VLA模型协作[37] - **边缘部署**:6月发布Gemini Robotics On-Device,让VLA模型完全离线运行在机械臂和人形机器人上,并配套开放SDK[39] 科学研究突破 - **生命科学与医疗** - **AlphaFold**:迎来五周年,已为超过2亿个蛋白质预测结构,助力全球300多万名研究人员,并因此荣获2024年诺贝尔化学奖[26] - **AlphaGenome**:发布基因组理解模型,可同时处理多达1兆碱基对的高分辨率DNA序列[28] - **DeepSomatic**:利用卷积神经网络以极高精度识别癌症相关遗传变异,助力精准医疗[28] - **Cell2Sentence-Scale 27B**:基于Gemma的270亿参数模型,用于单细胞分析,帮助发现新的潜在癌症治疗途径[48] - **数学与逻辑推理** - **Gemini Deep Think**:在第66届国际数学奥林匹克(IMO)中以35分(总分42分)达到金牌表现,解决6道难题中的5道[29] - **Gemini 2.5 Deep Think**:在2025年国际大学生程序设计竞赛(ICPC)总决赛中达到金牌水平,在12道题目中解出10道[29] - **科学发现工具** - **AlphaEvolve**:基于大模型的编程智能体,用于寻找和验证理论计算机科学中的复杂组合结构,在验证过程上实现1万倍加速[28] - **AI co-scientist**:基于Gemini 2.0构建的多智能体协作系统,能独立生成研究假设、设计实验方案并撰写研究提案[29] 世界模型与模拟 - **Genie 3**:被视为世界模型的新高峰,首次将实时交互、长期一致性和语言可控性合成在同一个生成式系统中[41] - **性能**:以每秒24帧、720p的边生成边交互方式运行,具备长达几分钟的空间记忆[41] - **意义**:有望成为智能体训练环境、内容生产工具及科学模拟沙盒,为通往通用智能提供可交互、可长期演化的模拟路径[42] 社会影响与垂类应用 - **气候**:洪水预警系统已覆盖150个国家、20多亿人口;天气预报模型WeatherNext 2速度是以前的8倍,可做到按小时预测[45] - **教育**:在Gemini AI中推出“Guided Learning”功能,通过提问、步骤讲解等方式帮助深入理解知识;打造融入学习科学原理的生成式AI模型LearnLM;基于Gemini增强翻译与实时语音对话翻译能力[52]
实测MiniMax M2.1之后,我们终于看懂了其招股书里的技术底气
机器之心· 2025-12-24 15:40
公司财务与运营状况 - 公司于12月21日正式向港交所递交招股书,披露其账上现金储备超过10亿美元[1] - 2025年前九个月,公司营收同比增长174.7%,同时经调整净亏损控制在1.86亿美元[1] - 2025年前九个月,公司研发费用同比增长约30%,远低于174.7%的营收增速,显示出高效的研发模式[28][32] - 公司研发成本结构具有可扩展性,研发投入增速未随营收规模同比例膨胀[32] - 公司2025年前九个月实现毛利1.2476亿美元,毛利率为23.3%[31] 核心技术发布:MiniMax M2.1模型 - 公司于12月23日正式上线MiniMax M2.1模型,这是一次重要的技术迭代[2] - M2.1在多语言编程能力上取得突破,在SWE-bench Multilingual评测中以72.5%的成绩达到SOTA,超越了Gemini 3 Pro和Claude Sonnet 4.5[3][4] - 模型支持包括Rust、Java、Go、C++、Kotlin、Obj-C、TS和JS在内的多种后端语言,旨在解决代码“跑不通”和“缺乏工程感”的痛点[3][5] - M2.1大幅强化了原生Android和iOS的开发能力,并提升了网页美观度与科学模拟功能[3][6] - 模型具备更快的响应速度、更简洁的推理以及显著降低的token消耗[3][9] - 模型拥有强大的交错思维与指令跟随能力,能集成“复合指令约束”,胜任办公自动化等任务[3][7] 技术基准与评估 - 公司构建并开源了全新基准VIBE,用于评估应用开发中的执行能力,涵盖Web、仿真、Android、iOS及后端五大核心子集[6] - 在VIBE基准测试中,M2.1平均得分为88.6分,显著优于Claude Sonnet 4.5的85.2分,并逼近Claude Opus 4.5的90.7分[6][7] - 在各子集测试中,M2.1在VIBE-Web得91.5分,VIBE-Android得89.7分,VIBE-iOS得88分,VIBE-Simulation得87.1分,VIBE-Backend得86.7分[7] 模型实测与开发者体验 - 实测表明,M2.1能够快速理解复杂需求并规划项目,例如在不到6分钟内完成一个“虾仁模拟器”小游戏的初步构建[17] - 模型具备良好的审美能力,能根据要求开发出具有特定风格(如像素风、莫兰迪色系)且支持深/浅色模式切换的网页UI[18][19] - 在多语言编程的复杂任务中,M2.1能够通过多轮互动解决问题,理解报错信息并自动完成修复,还能编写单元测试[21] - 模型能够连接使用不同语言(如React前端、Go网关、Rust核心程序)编写的模块,展现出全栈工程能力[22][30] - 实测项目还包括代码库重构、插件修改、工具开发等,证明模型能像成熟工程师一样解决问题[23][24] 技术迭代的战略意义与商业逻辑 - M2.1的发布是对公司招股书中高效研发数字指标的有力诠释,展示了其快速的技术迭代能力[9] - 此次更新是一次针对性的进化,旨在补齐公司在编程和逻辑推理方面的短板,支撑其AGI蓝图[13][14] - 公司正从C端应用(如星野、海螺AI)向B端生产力场景渗透,M2.1对代码和工具调用能力的强化旨在满足企业级工作流自动化需求[33] - 公司的商业闭环包括:C端产品作为数据飞轮和现金牛;底层模型控制成本并提升能力上限;开放平台切入高价值企业市场[34] - 公司形成了“左手账本,右手模型”的双轮驱动模式,将资本市场与技术探索相结合[35]
直面VLA的「阿喀琉斯之踵」:TeleAI用「反探索」提升具身推理稳定性
机器之心· 2025-12-24 15:40
行业技术挑战 - 视觉-语言-动作模型在推理阶段存在严重不稳定性,对初始噪声极其敏感,导致相同模型执行同一任务的成功率可在0%至80%间剧烈波动 [3][4] - 不稳定性根源在于预训练阶段吸收了广泛的动作模式,以及微调数据集本身的多模态性,导致策略分布中存在大量与任务成功无关的冗余或次优模式 [6][7] 技术创新与解决方案 - 研究团队提出名为TACO的创新框架,其核心原理是从离线强化学习的“反探索”原则获得灵感,旨在约束生成的动作保持在微调数据集中成功模式的支持范围内 [8][9] - TACO通过Test-Time Scaling实现,不修改模型参数,其核心组件是耦合伪计数估计器,该设计直接利用VLA模型自身的内部表示能力,附加一个轻量级的Coin-Flipping Network头 [11][12] - 为解决基于flow-matching或diffusion的VLA模型无法处理干净动作数据的问题,TACO采用高保真特征搜索机制,通过查询不同噪声水平下的模型并选择预测最接近真实动作的内部表示 [13][14][15] - TACO采用生成-验证两阶段推理架构:首先生成M个多样化的动作候选,然后由CFN计算每个候选的伪计数并选择计数最大的动作执行,该过程有坚实的离线强化学习理论支撑 [17][18][19] - 为降低计算开销,TACO提出共享观察键值缓存技术,使生成多个候选动作的边际成本几乎为零,实验显示采样32个动作时推理时间减少73.2%,在真实机器人上平均推理延迟仅增加200ms [20] 实验验证与性能提升 - 在RoboTwin基准测试中,TACO将π0模型的平均成功率从32.2%提升至41.3%,提升幅度达9.1个百分点,在最具挑战性的“挂衣架”任务上,成功率从7.0%跃升至12.0% [23][24] - 在LIBERO基准测试中,TACO使RDT模型的平均成功率从34.6%提升至64.0%,提升幅度达29.4个百分点,在多个具体任务上提升显著,例如“移动锅和罐”任务从25.0%提升至57.0% [26] - 在Simpler-WindowX基准测试中,TACO使π0模型的平均成功率从48.0%提升至55.5%,在“勺子放在毛巾上”任务上提升16个百分点,在“胡萝卜放在盘子上”任务上提升10个百分点 [27][28] - 在最具挑战性的LIBERO-long终生学习基准上,TACO在基础模型π0.5已达94.8%高成功率的基础上,仍能进一步提升1.8个百分点至96.6%,在“Moka壶放在炉灶上”任务上成功率从68%大幅提高至86% [29][30] - 在RealMan75双臂机器人真实世界实验中,TACO将5个任务的平均成功率从40%提升至56%,提升幅度达16个百分点,在“纸和笔整理”任务上提升高达25个百分点,在“笔记本电脑操作”长周期任务上提升15个百分点 [31][32] 核心机制与设计验证 - 实验证实CFN估计的伪计数与预测动作和真实动作之间的L2距离存在强负相关性,选择具有最高伪计数的动作几乎总是会选择最接近真实动作的动作,从而有效过滤次优行为 [16][33] - 消融实验验证了TACO各设计组件的重要性,移除CFN伪计数、不进行特征缩放或不使用内部特征都会导致性能显著下降,使用独立编码器而非内部特征会使特征高度相似,难以进行准确的伪计数估计 [33] 研究意义与行业影响 - TACO框架为解决VLA模型从实验室走向真实世界部署的关键障碍——推理不稳定性——提供了扎实的理论根基和实践方案 [2] - 该方法证明轻量级的测试时缩放可以有效实现“反探索”,缓解由分布偏移引起的动作预测不稳定性和性能下降,为VLA模型的实际部署提供了新思路 [35]