机器之心
搜索文档
音频-视觉全模态的未来预测,FutureOmni给出了首份答卷
机器之心· 2026-01-24 09:53
复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准 FutureOmni,要求模型从音频 - 视觉线索中预测未来事件, 实现跨模态因果和时间推理。包含 919 个视频和 1,034 个多选题问答对,在 13 个全模态模型 和 7 个纯视频模型 上的评估显示,当前系统在预 测未来事件方面存在显著困难,最佳准确率仅为 64.8%。 在日常生活中,人类不仅能理解「发生了什么」,更重要的是能够预测「将会发生什么」。看到乌云密布、听到雷声渐近,我们会主动关窗收衣;看到老师眉头 紧皱,反复强调某个知识点(听),我们知道接下来可能会有提问;看到球员起跳的动作和听到观众的惊呼,我们能够预判这是一个精彩的扣篮。 然而,现有的多模态大语言模型(MLLMs)虽然在全方位感知方面展现出强大的能力,但它们从音频 - 视觉线索中预测未来事件的能力仍然很大程度上未被探 索。现有的音视频模态基准主要关注回顾性理解 ⸺「视频中发生了什么」,而非前瞻性预测 ⸺「接下来会发生什么」。 现在,这一空白终于被填补了!复旦大学、上海创智学院与新加坡国立大学联合发布 FutureOmni ,不仅重新定义了多模态模型的「未来预测」评测 ...
OpenAI:以后大家用AI赚的钱,我可能要抽成
机器之心· 2026-01-23 16:29
公司财务与估值动态 - OpenAI的API业务在上个月增加了超过10亿美元的年度经常性收入[1] - 公司正计划寻求融资500亿美元,新的估值预计在7500亿美元到8300亿美元之间[3] 商业模式潜在转变 - OpenAI首席财务官提出“价值共享”模式,即从客户使用其AI技术创造的收益中分取一部分利润,例如在药物研发领域[4] - 公司可能正在考虑从“卖工具”转向“分利润”的商业模式,不满足于只收取软件使用费[5] - 这种模式可能扩展至能源和金融领域,基于知识产权许可协议和基于结果的定价来分享所创造的价值[15][16] 行业影响与市场反应 - 商业模式转变可能颠覆对AI工具化的认知,若成为行业标准,将彻底改变基于AI API构建业务的初创公司的成本计算逻辑[8] - 公司面临知识产权争议,其模型训练数据来源包括受版权保护的内容,并因此面临诉讼[11] - 有观点认为,一家以非营利性质起家的公司走到这一步令人尴尬[9] 在药物研发领域的业务进展 - 制药和生物技术公司已开始使用各种形式的AI进行药物研发,多家大型医药公司宣布与OpenAI深度合作[13] - OpenAI正在开发专门用于生物学和药物方向的AI模型,并与生命科学诊断供应商等洽谈,以获得专业数据授权用于模型训练[14] - 在AI+医药研发领域存在激烈竞争,对手包括Anthropic、谷歌DeepMind以及Alphabet旗下子公司Isomorphic Labs[14] - 已有类似商业模式先例,如Recursion等AI药物研发公司与制药企业达成交易,若技术成功识别出药物将获得巨额奖金[14] 技术能力与商业愿景 - 大语言模型擅长发现人类可能错过的架构和形态,能将不同领域的概念联系起来并提出新型实验建议[16] - 尽管模型存在局限和错误,但科学家们对其作为“想法合成器”和“研究助手”的潜力感到痴迷[9][16] - 首席财务官的言论清晰地释放了公司希望通过知识产权许可或版税获得收入的信号[16]
陈天奇、贾扬清点赞:Vibe Coding版PyTorch,连论文都是AI写的
机器之心· 2026-01-23 16:29
项目概览与核心观点 - 英伟达杰出工程师许冰在GitHub上开源了全球首个完全由AI智能体生成的全栈深度学习系统VibeTensor,该系统从上层绑定到底层CUDA内存管理,没有一行人类编写的代码[2][11][12] - 该项目被视为对“人类编写代码的时代已经结束”这一论断的有力证明,并引发了行业广泛关注,相关帖子浏览量超过700万[1][4] - 项目论文本身也是100%由AI撰写,进一步展示了AI在复杂内容生成方面的能力[8] 项目技术架构与性能 - VibeTensor是一个功能完整的深度学习系统,包含约4.7万行自动生成的内核代码,总计核心代码行数超过16万行[3][25] - 系统独创了名为Fabric的张量子系统,这是一个显式的多设备抽象层,能够自动发现硬件拓扑并接管多卡通信,这是现有主流框架中不存在的概念[2][20] - 系统提供了“Node.js + Python”双前端,其中Node.js插件采用异步优先设计,展示了AI处理异构开发环境的灵活性[23] - 在整体性能上,VibeTensor目前仍无法与PyTorch抗衡,在多项测试中比PyTorch慢约1.7到6.2倍[16][18] - 但在特定算子性能上,AI生成的内核表现优异,例如其生成的Fused Attention内核前向计算比PyTorch原生FlashAttention快1.54倍,后向计算快1.26倍[28][29] AI智能体开发方法与局限 - VibeTensor由英伟达第四代智能体在两个月内独立完成,人类仅提供高层级需求指导,角色转变为“监工”与“策略制定者”[12][35][36] - 开发流程采用彻底的“黑盒”工作流和测试驱动的“硬核”规范,AI智能体自主进行代码生成、工具校验和多智能体评审,并利用PyTorch作为“参考原件”进行API对齐检查[36][37][39] - 项目揭示了AI编程的“弗兰肯斯坦效应”:AI能确保局部子系统逻辑正确,但组合成全局系统时会产生意想不到的性能瓶颈,例如为安全而设计的全局互斥锁严重影响了并行性能[3][30][33] - AI在处理“单次正确”任务时表现卓越,但在处理系统的“组合稳定性”时面临巨大挑战,需要跨越多层级进行调试[40] 行业意义与影响 - 该项目罕见地验证了AI能够编写复杂的系统代码,行业专家评价其为AI工程师的“AlphaGo时刻”,标志着生成式软件工程新时代的开启[4][41][42] - 项目表明AI智能体已经能够构建深度学习框架级别的复杂系统,并开始尝试从底层通信协议层面重构大规模分布式训练的逻辑[3][21] - 尽管存在局限性,但方向已经明确,未来的系统软件可能由人类定义需求,由AI自主生成[42]
思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式
机器之心· 2026-01-23 16:29
文章核心观点 - 腾讯内容服务部BAC联合清华大学与北京大学提出了一种名为Render-of-Thought (RoT)的新框架,旨在解决思维链推理中显式方法效率低下和隐式方法不可分析的问题 [3] - RoT框架的核心思想是利用多模态模型的视觉编码器作为“语义锚点”,将文本推理步骤“渲染”为图像的视觉嵌入,从而在压缩推理过程的同时保持其可分析性 [3][4] - 该方法实现了推理速度的显著提升和Token数量的有效压缩,为在资源受限场景下部署强推理模型提供了新的技术路径 [22][37] 技术方案与原理 - RoT是一种将文本思维链通过光学渲染和视觉知识蒸馏转化为紧凑视觉表征的新范式,它直接利用现有VLM中冻结的视觉编码器,实现了即插即用,无需额外的预训练开销 [12] - 为了适应自回归思维链的序列化建模,研究团队采用了单行图像渲染策略,该策略可以根据文本长度动态修改图像宽度,并确保视觉序列与文本顺序自然对齐 [12] - RoT的实现分为两个阶段:第一阶段进行视觉对齐,训练一个轻量级的视觉投影头,将LLM的文本隐状态映射到渲染图像的视觉特征空间;第二阶段进行潜在监督微调,通过LoRA微调LLM,使其自回归地生成连续的潜在视觉Token [14][15][17] 性能与实验结果 - 在推理速度方面,相比于显式CoT,RoT实现了3-4倍的Token压缩率,并在多个基准测试中展现出巨大优势 [22] - 在Qwen3-VL-4B模型上,RoT在GSM8k-Aug数据集上的Pass@1准确率达到37.8%,平均推理长度仅为32个Token,其Pass@1/L指标为1.73,显著优于SFT-CoT的0.73 [23] - 在MultiArith数据集上,RoT (Qwen3-VL-4B) 达到了97.2%的准确率,显著优于同等规模下的其他隐空间推理方案 [23][24] - 在更具挑战性的MATH数据集上,使用固定Token预算策略(64个Token)时,RoT (Qwen3-VL-4B) 的Pass@1准确率达到33.2% [20][36] 关键技术细节与消融实验 - 研究团队探索了两种推理解码策略:基于Special Token的动态终止策略和固定Token预算的静态终止策略,实验发现后者性能更优,动态终止策略可能因连续潜空间中自我调节停止机制的内在不稳定性而导致性能下降 [18][19] - 单行渲染相比传统的固定尺寸多行渲染,收敛更快,且能更好地契合语言模型从左到右的序列生成特性 [33] - 两阶段训练缺一不可,消融实验表明,去除第一阶段(视觉对齐)会导致MATH数据集的准确率从33.2%降至22.2%;排除第二阶段(潜在监督微调)也会导致性能显著下降 [35][36] 技术优势与行业意义 - RoT的一大亮点在于其可分析性,由于隐状态被对齐到了视觉空间,可以通过热力图等工具观察模型的“思考过程”,这为理解大模型的内部隐空间提供了新的窗口 [26] - 该方法打破了文本模态的限制,利用视觉信息的高密度特性来压缩推理过程,大幅提升了推理效率 [37] - 对于未来在端侧设备等资源受限场景下部署强推理模型,RoT提供了一条切实可行的技术路径 [37]
三星爆火递归模型TRM唯一作者被迫离职,内部不认可?
机器之心· 2026-01-23 14:37
编辑|冷猫 还记得三个月前,来自三星的一位研究员的独作论文发布即爆火,颠覆了递归推理模型架构,让一个仅包含 700 万个参数的网络,性能比肩甚至超越 o3-mini 和 Gemini 2.5 Pro 等尖端语言模型,震惊了大量业内研究人士。 这篇论文是大名鼎鼎的《Less is More: Recursive Reasoning with Tiny Networks》,带来了影响深远的 微型 递归模 型 TRM 。 关于这篇论文和模型的相关信息,可以参阅 我们之前的报道 。 按理说,发布成果的 唯一作者 Alexia Jolicoeur-Martineau ,在三星应当平步青云,带领全新的团队继续后续研究,用 TRM 的后续研究助力三星在人工智能领域 的进步。 可惜一切似乎都不尽如人意。突然间,Alexia 就发推说要离职。 从推文中明显能看出 Alexia 的怨气。 「在 TRM 取得巨大成功(为公司赚取数十亿美元)后,我在三星的生活变得一团糟。」 止不住的怨气来源于, Alexia 的工作,加拿大蒙特利尔三星先进技术研究所人工智能实验室(SAIL Montreal)取得的最大成绩,并未能够被内部认可。 听 ...
启动经费550万起!全球顶级AI人才看过来
机器之心· 2026-01-23 14:37
北京中关村学院 . 以下文章来源于北京中关村学院 ,作者北京中关村学院 Invitation 会议邀请 北京中关村学院是全新的高等教育科研机构,专注于人工智能与交叉学科领域的教育教学与科研创新。 秉持"极基础,极应用,极交叉"的颠覆式研究理念,"极经典,极前沿,极实战"的人才培养理念。 ZGCA x ZGCI 致全球英才: 北京中关村学院是全新的高等教育科研机构, 与全国31所双一流高校共建,专注于人工智能与交叉 学科的人才创新培养。 中关村人工智能研究院是年轻的探索型研发机构,深耕前沿技术研发与产业 转化。中关村两院秉持"极基础、极应用、极交叉"的颠覆式理念,以"培养AI领军人才"为使命。 我们拥有各层级人才项目自主评审权 ,将于2月6日面向全球英才召开 人才线上交流会暨第四届中 关村国际青年论坛宣导会 ,提供最直接权威的人才政策解读、在线答疑交流,诚邀全球顶尖人才参 加! Agenda 会议议程 ( 一 ) 两院整体情况介绍 (二) 两院科研情况介绍 (三) 海优人才政策介绍 时间:2026年2月6日 形式:线上宣讲 报名:扫描下方二维码 截止时间:2026年2月1日 咨询邮箱: talent@bjzgc ...
百万围观、HuggingFace多模态登顶,华人团队开源语音版「DeepSeek」海外爆火
机器之心· 2026-01-23 11:43
行业技术趋势 - 语音交互技术正从传统的“ASR-LLM-TTS”级联式架构,向端到端的实时语音生成系统演进,这一转变旨在降低延迟、提升自然度,并增强系统在生产环境中的可用性[1] - 端到端语音交互系统通过深度集成语音识别、文本理解和语音合成等任务,减少中间转换步骤,从而显著提高响应速度,使交互更即时和自然[1] 公司产品发布与市场反响 - FlashLabs发布并开源了其实时语音模型Chroma 1.0,定位为全球首个开源的端到端语音到语音模型[1] - Chroma 1.0发布后在社交媒体上引起广泛关注,其官方X帖子的浏览量已突破百万[2] - 多位知名X博主对Chroma 1.0给予了很高评价[3] - 在HuggingFace多模态榜单中,Chroma的4B参数版本排名第一[4] 产品技术架构与设计 - Chroma的核心目标是构建一个语音到语音的统一系统,将语音理解、语义建模与语音生成纳入同一框架,以降低系统复杂度并提升实时响应能力[10] - 模型采用分层多模块架构,而非单一的Transformer架构,具体包括:负责多模态理解与文本生成的Reasoner模块、约1B参数的LLaMA变体Backbone模块、约100M参数的Decoder模块以及Codec Decoder模块[12][14] - 为保证低延迟,Chroma采用固定的文本-音频交错日程,比例为1:2,即每个文本token对应两个音频码[15] - 模型通过多模块间的分工协作进行联合建模,避免了传统级联系统中多次模态切换带来的信息损失[16] - Chroma 1.0的总参数规模约为40亿,设计上更强调在延迟、吞吐与可部署性之间取得平衡,相较于7B-9B的大模型具有效率优势,同时性能优于0.5B级别的小模型[17] 产品性能与核心指标 - 模型在个性化声音克隆任务中,实现了对人类基线10.96%的相对提升,展示出对细节声纹特征的捕捉能力[27] - 通过1:2交错策略与多码书设计,将首字延迟降至约150毫秒,并保持实时率小于1[27] - 论文评测重点放在实时交互可用性和个性化声音克隆上,而非单一的语音自然度指标[21] 研究贡献与工程价值 - Chroma的研究贡献主要体现在三个方面:系统性论证了端到端S2S架构在实时对话场景中的优势;引入了1:2文本-音频交错策略和模块化设计;采用了LLM+TTS构建高质量训练数据,并通过综合的主客观指标验证系统性能[25] - 该研究兼具工程导向和系统研究价值,而非单点算法突破[22] - 其价值在于为行业提供了可复用的蓝图,通过分层设计与数据生成策略,解决了实时语音交互这一工程难题[27] 应用场景与商业化路径 - Chroma并非孤立模型,其首要应用场景是FlashLabs的语音产品FlashAI,在其中承担实时语音交互引擎的角色[24] - 典型应用包括企业级呼叫与客服、AI语音代理以及跨语言语音交互[24] - 在FlashAI中,Chroma能够实现实时应答、稳定长对话、多语言支持,并适用于呼叫中心、预约、售后等高并发场景[26] - 结合知识库与业务逻辑,Chroma可直接在语音层面完成任务型对话,减少文本中转延迟[26] - 统一的语音建模降低了系统切换成本,提升了整体交互的连贯性[26]
vLLM团队官宣创业:融资1.5亿美元,清华特奖游凯超成为联创
机器之心· 2026-01-23 08:45
公司成立与融资 - 由开源大模型推理加速框架vLLM的创建者创立的人工智能初创公司Inferact正式成立 [1] - 公司在种子轮融资中筹集了1.5亿美元(约合10亿元人民币),公司估值达到8亿美元 [1] - 本轮融资由Andreessen Horowitz(a16z)和Lightspeed领投,Sequoia Capital、Altimeter Capital、Redpoint Ventures和ZhenFund也参与了投资 [4] - 1.5亿美元的种子轮融资规模超过了Mistral AI的1.15亿美元,是有史以来规模最大的种子轮融资之一 [4] 公司使命与定位 - 公司的使命是将vLLM发展成为世界领先的AI推理引擎,并通过降低推理成本、加快推理速度来加速AI的发展 [5] - 公司认为,AI行业未来面临的最大挑战不是构建新模型,而是如何以低成本、高可靠性地运行现有模型 [6] - 公司定位于模型和硬件的交汇点,与模型厂商合作确保新架构的首日支持,与硬件厂商集成新芯片,并支持大模型团队进行大规模部署 [12] 核心技术vLLM - 公司的核心是开源项目vLLM,这是一个于2023年启动的开源项目,旨在帮助企业在数据中心硬件上高效运行AI模型 [7] - vLLM最初由加州大学伯克利分校的天空计算实验室开发,现由PyTorch基金会负责管理,已吸引了来自整个AI行业的2000多名贡献者 [8] - vLLM是全球范围内最受欢迎的开源大模型推理加速框架,其GitHub仓库拥有68.2k个Star和12.8k个Fork [8] - vLLM支持了500多种模型架构,可在200多种加速器上运行,并支持着全球规模的推理 [12] - vLLM的推理能力在为Meta、谷歌、Character.AI等科技公司提供支持 [9] 团队与背景 - 公司的首席执行官Simon Mo是加州大学伯克利分校的在读博士生,也是vLLM的创始维护者之一 [9] - 公司成立于2025年11月,并于本周正式对外公布 [9] - vLLM项目的核心贡献者、清华博士游凯超是公司的联合创始人 [13] - 创始团队还包括Woosuk Kwon、Roger Wang、Joseph Gonzalez、Ion Stoica等人 [15] 行业背景与挑战 - 业界对于AI推理基础设施的重视程度正在急速提升 [4] - 当前用于大模型训练的AI集群,将在六个月内完全被用于推理,推理会逐渐消耗掉所有算力容量,并耗尽所有新增的容量 [11] 未来发展计划 - 公司的首要任务是继续支持vLLM作为独立的开源项目,并将改进成果分享给社区 [12] - 计划进一步提升vLLM的性能,深化对新兴模型架构的支持,并扩大对前沿硬件的覆盖范围 [12] - 公司的第二个目标是开发一款独立的商业产品,帮助企业在不同类型的硬件上更高效地运行AI模型 [12]
一文速通「机器人3D场景表示」发展史
机器之心· 2026-01-23 08:45
机器人3D场景表示技术综述 - 文章核心观点:探讨了机器人领域中最适合的三维场景表示方法,全面总结了从传统几何表示到最新神经网络表示(如神经辐射场、3D高斯散布和基础模型)的技术发展、应用比较及未来挑战,旨在为研究人员提供有价值的参考资料并指明未来发展方向[2][8][22] 机器人3D场景表示发展史与分类 - 几何场景表示:包括点云、体素栅格、网格和符号距离函数等传统方法,用于离散或连续地表示场景几何[7][10] - 神经场景表示:新兴技术如神经辐射场、3D高斯散布模型和基础模型,通过神经网络实现连续、可微的场景表示,并整合高层次语义和语言先验知识[8][13][15] 不同3D场景表示方法的特点对比 - 连续性:神经辐射场、3D高斯散布和Tokenizer是连续且可微的,而体素、点云、网格和场景图是离散且不可微的[17] - 存储效率:场景图和Tokenizer的存储效率最高(++++),3D高斯散布最低(+)[17] - 真实感渲染:神经辐射场和3D高斯散布的真实感最高(++++)[17] - 灵活性:点云、场景图、神经辐射场、3D高斯散布和Tokenizer的灵活性较高(+++ 或 ++++)[17] - 几何表示能力:网格的几何表示能力最强(++++),点云和神经辐射场等次之(+++)[17] 三维场景表示在机器人各模块的应用 - 建图与定位:神经场景表示能实现更精确、密集的环境建模,对避障至关重要,并在地图精度、位姿精度和实时性能方面进行比较[15] - 操作:基于神经网络的场景表示在生成新视角和跨场景泛化方面有优势,基于基础模型的方法能实现零样本抓取任务并集成语言信息以支持交互式抓取[15][16] - 导航:神经场景表示能提供高度准确的环境重建,并更好地融合语义和语言信息以执行复杂导航任务,包括路径规划和未知区域探索[16] 现有挑战与未来发展方向 - 系统架构选择:当前模块化智能系统可能限制发展,面临泛化能力有限和迁移性差的问题,而基础模型的进展提供了实现端到端智能的替代路径[19] - 数据瓶颈:机器人领域特有数据匮乏,显著阻碍了神经场景表示和基础模型的发展,未来需增强有限数据下的泛化能力或利用世界模型生成额外训练数据[20] - 实时性瓶颈:神经场景表示的推理时间是制约实时应用的关键,部署策略分为云端和边缘计算,未来方向在于硬件-算法协同设计以提高推理效率并保持泛化性能[21] 文章主要贡献 - 提供了全面且最新的综述与基准测试:涵盖了从经典到前沿的机器人场景表示方法,并在每个模块中详细介绍了不同表示方法的优势[22] - 指明了三维场景表示的未来方向:指出了各模块当前研究的技术局限性,并提出了有前景的未来研究方向以激励领域进步[22] - 发布了开源项目:在GitHub上整理了相关文章,并将持续更新,以供研究人员获取最新信息[9][22]
幻觉率不到3%,王小川把医生版的DeepSeek免费了
机器之心· 2026-01-22 19:00
编辑|泽南 在医疗健康这一容错率极低的领域,大模型不再凭空「想象」,而是已变得严谨可靠、能引会搜:百川刚刚推出的新模型,实现了一个里程碑式的突破。 本周四,百川智能正式发布新一代大模型 Baichuan-M3 Plus,其面向医疗应用开发者,在真实场景下将医学问题推理能力推向了全新高度。新模型发布的 同时,接入 M3 Plus 的百小应 App 与网页版也已同步上线。 在 AI 领域,从来没有一款大模型可以做到 M3 Plus 这么高的医学场景准确率,百川还大幅提升了模型的推理效率,M3 Plus 的发布,标志着 AI 在医疗领 域的应用跨过了「敢用、好用、用得起」的关键门槛。 百川智能创始人、CEO 王小川表示,在垂直领域,M3 Plus 已经可以认为是医生版的 ChatGPT 或 DeepSeek,作为性能最强、推理效率最高的模型,可 大规模用于 AI 辅助医疗落地。 全球最低幻觉率 从看着像,到真的准 长期以来,医生与患者对 AI 的态度一直存在矛盾:人们既期待 AI 能分担繁重的工作,又恐惧它们「一本正经地胡说八道」。信任,是 AI 进入医疗领域的 最后一道墙。 在发布活动中,百川智能模型技术负责人鞠 ...