Workflow
量子位
icon
搜索文档
这么哇塞的世界模型,竟然是开源的!
量子位· 2026-01-29 16:27
文章核心观点 蚂蚁灵波公司近期连续开源了其具身智能基础设施的三个核心组件,最新开源的通用世界模型LingBot-World在长时序一致性、交互性和实时性方面表现突出,与之前开源的感知模型LingBot-Depth和决策模型LingBot-VLA共同构成了一个完整的、可复用的具身智能技术闭环,旨在为行业提供标准化的基础设施,其技术复用性未来可能扩展至游戏、AIGC和自动驾驶等领域[2][31][32][42][43]。 技术发布与核心特性 - **最新开源模型**:蚂蚁灵波开源了通用的世界模型——LingBot-World,这是一个能够支持长达10分钟持续生成与交互的世界模型[2][3] - **关键性能对比**:在视觉效果上与DeepMind的Genie 3不相上下,但在时间维度上更长;模型支持720p分辨率,并实现了实时(Real-time)生成[3][27] - **核心交互能力**:用户可通过键盘(WASD)和鼠标实时控制视角,如同操作3A游戏;同时,Agent能在生成的世界中自主规划执行动作,用户也能用自然语言实时改变生成世界[4][5][6] - **模型核心优势**:模型在长时序一致性、记忆力(能推断画面外物体的行为)以及遵循现实物理规律方面表现优异,解决了长视频生成的灾难性遗忘问题[9][10][11][24] 技术实现路径 - **数据构建策略**:构建了混合数据引擎,结合海量真实世界视频与利用虚幻引擎合成的、自带完美相机位姿和物理碰撞信息的数据[16][17] - **分层标注策略**:将视频描述拆解为叙事描述、静态场景描述和密集时序描述三个层级,以解耦背景与运动[19][25] - **三阶段模型训练**: - **阶段一(预训练)**:基于视频生成模型初始化,旨在获得强大的通用视频生成能力[23][24] - **阶段二(中训练)**:引入混合专家模型架构,注入交互数据和游戏逻辑,使模型掌握物理规律并涌现出空间记忆能力[24] - **阶段三(实时性优化)**:通过引入因果注意力机制和少步蒸馏技术,将推理过程变为自回归生成,将延迟压缩到1秒以内,实现16fps的实时生成速度[26] 公司战略布局 - **完整基础设施闭环**:此次开源并非孤立事件,结合此前开源的LingBot-Depth(机器人的“眼睛”,感知)和LingBot-VLA(机器人的“大脑”,决策),公司提供了一套完整的具身智能基础设施[31][32][42] - **组件协同效应**:三个组件产生了“1+1+1>3”的化学反应:VLA可在World生成的虚拟环境中低成本推演学习;World生成的一致性视频可转化为高质量3D点云,用于训练Depth模型;VLA在真实世界的反馈又能优化World模型的物理准度[41] - **行业定位与愿景**:通过将感知、决策、模拟三大核心件全部开源,公司试图为整个行业提供一套可复用、标准化的产业基础设施[32][43] - **未来扩展潜力**:该技术栈的复用性不仅限于具身智能,同样可以应用于游戏、AIGC和自动驾驶等领域[43] 其他模型性能数据 - **LingBot-VLA性能**:在20000小时真实世界数据加持下,在三个不同机器人平台上完成了100项任务,成功率碾压同类模型,训练吞吐量是现有框架的1.5到2.8倍[37][38] - **LingBot-Depth特性**:通过掩码深度建模,能有效处理反光、透明物体,让机器人更清晰地感知真实世界[34][35]
OpenAI推理第一人创业了:要造“活到老学到老”的AI,先来融它70个亿
量子位· 2026-01-29 13:03
核心观点 - OpenAI前核心研究员Jerry Tworek离职后迅速创立Core Automation公司,瞄准“持续学习”领域,计划筹集5亿至10亿美元资金,旨在开发能够像人类一样从新数据和新经验中不断学习且不遗忘旧知识的新型AI模型 [1][15][18] Jerry Tworek的背景与成就 - Jerry Tworek拥有强大的理论与数理功底,在华沙大学获得数学硕士学位,并曾从事量化研究工作,专注于优化问题与噪声数据处理 [6][7][8] - 2019年加入OpenAI后,他将强化学习的方法论带入大模型研究,主导了首个推理模型o1的研发,并深度参与了o3、GPT-4、ChatGPT、Codex等多条核心模型线的构建,是推动大模型从生成走向推理的核心人物之一 [9][10] Core Automation公司的技术方向与目标 - 公司致力于解决“持续学习”问题,目标是让AI模型能够在真实世界的使用过程中,从连续不断的新数据、新任务和新经验中逐步学习新知识,同时尽可能保留旧知识 [15][16] - 技术实现计划包括构建一套不依赖Transformer的新架构,并将分散的训练流程整合为一个连续的系统,使模型在运行过程中也能完成学习 [17] - 融资目标激进,计划筹集5亿到10亿美元,旨在按照下一代基础模型实验室的规格起步 [18] 持续学习领域的重要性与行业动态 - 持续学习被视为解决当前大模型“训完就上线”模式弊病的路径,该模式导致模型部署后能力基本固定,无法有效利用遇到的新情况 [12][13] - 从成本与效率角度看,持续学习路径被认为更具优势,它主张模型在真实使用中吸收新经验,用更少的交互实现进步,从而降低对训练数据和算力的依赖 [20][21][22] - 行业共识认为,要实现AGI,模型必须具备持续进化、处理长时序任务等“生物”能力,而“持续学习”是达成此目标的关键前提 [23] - 该领域已吸引多方关注:OpenAI联合创始人Ilya创立的SSI公司也专注于相近方向 [25];Google Research提出了“Nested Learning”和“Titans”等新思路以增强模型的持续学习能力 [28];DeepMind研究员预测2026年将成为“持续学习元年” [31]
MoltBot作者被Claude刁难后:MiniMax M2.1是最优秀的开源模型
量子位· 2026-01-29 13:03
文章核心观点 - 开源AI智能体项目Moltbot(原名Clawdbot)凭借其强大的自主编程与任务执行能力,在开发者社区引发巨大热潮,展示了个人持久化智能体的巨大潜力和市场需求 [1][12][36] - 项目创始人Peter Steinberger认为,该项目的成功揭示了AI智能体开发的新范式:通过构建面向智能体的开发体系,个人开发者能以前所未有的效率创造个性化工具,这可能导致传统应用生态发生根本性变革 [31][37][49] - 尽管面临安全挑战、品牌更名压力以及商业化诱惑,创始人目前更倾向于以社区和非营利模式推进项目发展,旨在让工具人人可及,并推动相关技术研究 [55][56][58] 开发者社区反响与用例 - 开发者解锁多种创新玩法:有开发者设置Moltbot在其睡眠时自动编写工具优化工作流,智能体甚至自主开发了语音功能,令开发者感到惊喜 [2][3] - 实用价值被充分挖掘:有从业者将Moltbot与Notion、Toggl、谷歌搜索控制台及谷歌分析打通,实现自动撰写博客、记录工时、生成并发送定制化数据报告等功能 [4] - 项目热度极高,带动硬件需求:非科技圈人士也因该项目前往苹果店购买Mac Mini,项目在GitHub上的星标数增长曲线呈“一条笔直向上的直线” [23] 云服务商跟进与竞品动态 - 主流云服务商迅速上线支持:阿里云轻量应用服务器提供了Moltbot应用镜像(版本v2026.1.25),最低配置为每月56元,提供2 vCPU、2 GiB内存 [7][8] - 腾讯云轻量应用服务器Lighthouse同步上线了Clawdbot应用模板,提供一键安装,帮助开发者快速搭建和观测智能体 [8] - 竞品涌现:市场出现一站式AI业务搭建工具等竞品,其团队刚刚完成了1000万美元种子轮融资 [9][10] 项目创始人与开发理念 - 创始人背景:Peter Steinberger曾运营软件公司13年并在4年前出售公司,经历低谷后于去年四月重燃热情进入AI领域 [15][16] - 开发动机:项目始于个人兴趣与学习需求,核心宗旨是“图个开心”,旨在通过实践探索AI智能体的可能性 [23][34] - 关键洞察:给智能体足够权限后,其解决问题的聪明程度令人惊讶,例如能通过识别文件头、调用外部API等方式处理未预设的语音消息 [29][30] 技术实现与行业影响 - 开发秘诀:关键在于打造一套让智能体以最优方式做软件开发的体系,并按照模型的思维方式进行“面向智能体的开发” [27][31][32] - 效率革命:熟练掌握工具并理解模型逻辑后,个人开发效率极高,“现在一个人能做出的东西,抵得上去年一整个公司的开发成果” [37] - 模型兼容性:项目设计初衷之一是实现所有模型(包括本地模型)的兼容,将其作为巨大的实验场 [37] 模型能力对比与品牌更名 - 模型各有优势:Anthropic的Opus在拟人交互上领先,交互方式极具人类感;OpenAI的模型更稳定可靠;Codex在处理大型代码库和开发效率上更高 [38] - 被迫更名:因品牌混淆风险,应Anthropic要求将项目名从Clawdbot改为Moltbot,更名过程遭遇账号被恶意抢注等挑战 [39][40] - 本地运行体验:创始人在512G顶配Mac Mini上运行本地模型如MiniMax M2.1,认为这是当下最优秀的开源模型之一,但单台设备体验不足,未来需要多台协同 [43][45] 行业未来展望 - 应用生态变革:智能体的普及可能使一大批应用程序被淘汰,人与服务的交互将简化为与智能体的自然对话,大多数应用将退化为API [49][50] - 用户门槛降低:非技术背景用户(如设计公司从业者)也能通过对话让智能体完成开发工作,公司已用其搭建了25个网络服务 [50][51] - 本地与云端模式:本地智能体需求将推动行业变革,例如帮助企业绕开繁琐的官方API审批流程;但并非所有人都会为运行智能体而购置硬件 [45][46] 项目现状与未来规划 - 安全挑战凸显:项目最初为可信环境设计,现被用于非信任环境,暴露出大量安全隐患,创始人正面临梳理上百个安全问题的压力 [54][55] - 筹备组建团队:因个人精力已达极限,创始人开始筹备组建团队,并希望吸引开源贡献者参与项目维护 [55][59] - 组织与商业化倾向:相比成立公司,创始人更倾向于成立非营利组织;采用MIT等宽松开源协议,核心策略是把开源版本做得足够好以削弱商业化改版的动力 [56][58]
谷歌Alpha家族再登Nature封面!刷新基因组预测SOTA,精准定位远端致病突变
量子位· 2026-01-29 10:30
AlphaGenome的核心突破与意义 - 谷歌DeepMind推出全新AI模型AlphaGenome,将AI预测能力拓展至人类基因组图谱,并登上《Nature》封面 [1] - 该模型能够同时对11种不同的基因调控过程进行综合预测,准确捕捉基因深处的复杂互动 [3] - 其预测性能在各项测试中均持平或超越现有程序,成为当前基因组预测领域的SOTA(最先进)模型 [9] 模型的技术能力与性能 - AlphaGenome构建了统一的预测框架,单次推理即可覆盖基因组的广泛特征,直接对11种不同的生物学过程进行综合预测,包括基因表达、转录因子结合、组蛋白修饰及染色质三维折叠接触图谱 [11] - 在针对基因组轨迹预测的24项评估中,取得了22项SOTA(最先进水平) [13] - 在变异效应预测任务中,与Borzoi、Enformer等现有模型进行了26轮对决,并在25轮中胜出 [14] - 能够深入分析复杂的基因剪接机制,识别细胞如何从单个基因生成多种蛋白质,以及这一过程何时会出错导致疾病 [4] - 在极其复杂的RNA剪接过程中,实现了对剪接动力学的完整模拟,能够同时计算剪接位点、位点使用率以及具体的剪接连接点 [15] - 利用其长程预测能力,解析了距离靶基因超过10kb的远端增强子,解决了全基因组关联分析(GWAS)中的核心难题 [19] - 在测试中,成功为49%的GWAS相关位点指明了明确的调控方向,解析率大幅超越传统方法 [21] 模型的应用案例与实证 - 对白血病相关基因TAL1的致病突变进行了精准还原,准确预测出8000个碱基之遥的区域发生的突变引起病变 [6] - 在TAL1基因研究中,成功锁定了一个距离基因转录起始位点8000个碱基之遥的插入突变,并给出了完整的致病逻辑链条,预测该突变创造了一个MYB转录因子的结合位点,并最终形成一个新增强子,远程强制激活了本应关闭的TAL1基因,导致T细胞癌变 [23][24][26][27] - 以动脉组织中的DLG1基因案例为例,精准捕捉到DNA序列中一个微小的4碱基缺失(TACTC>T),导致关键外显子被错误跳过,并计算出受影响外显子的使用率大幅下降 [16][17] - 模型不仅能处理已知数据,更能对从未见过的DNA片段及其未知突变做出准确预测 [8] 模型的技术架构与设计 - 采用基于U-Net的混合主干网络,融合了卷积神经网络(CNN)与Transformer的技术优势 [30] - 利用卷积层提取局部的DNA序列特征,同时引入Transformer模块利用注意力机制捕捉跨越长距离的碱基依赖关系 [31] - 架构最终生成两种嵌入表示:用于预测线性基因组功能轨迹的一维嵌入,以及专门用于重构染色体三维折叠结构(接触图谱)的二维嵌入 [31] - 在U-Net结构中,编码器通过卷积模块提取高维特征,中间层的Transformer塔处理长程信息,解码器通过跳跃连接恢复至单碱基分辨率 [33] - 将输入窗口扩展到了100万个碱基对(1Mb),足以覆盖绝大多数远程增强子与启动子之间的相互作用区域 [36] 模型的训练数据与策略 - 支撑模型训练的是一个覆盖人类与小鼠双物种的工业级规模数据集 [37] - 利用了来自ENCODE、GTEx及4D Nucleome Project等公开资源,针对人类基因组的5930种功能轨迹和小鼠基因组的1128种功能轨迹进行了端到端的监督学习 [37] - 数据覆盖了不同的组织、细胞类型及细胞系,确保模型能够学习到基因调控在不同生理环境下的通用规则 [38] - 训练策略采用两阶段流程:第一阶段为采用4折交叉验证的预训练;第二阶段采用蒸馏策略,用全折叠教师模型集合指导单个学生模型学习 [39][40][41] - 引入了严苛的数据增强策略,包括随机移位、反向互补和随机突变,迫使学生模型掌握DNA序列背后的深层语法规则,增强对未见变异的鲁棒性 [43] 模型的工程化与部署 - 利用序列并行技术,将1Mb的长输入序列切分为多个片段(如131 kb),分配至8个互联的TPU v3设备上同步计算 [43] - 软硬件协同架构使得模型在保持单碱基分辨率精度的同时完成大规模训练,最终得到的蒸馏模型在单个GPU上仅需不到1秒即可完成推理 [43] - 目前,Google DeepMind已面向非商业研究开放AlphaGenome API [10]
马斯克冲刺机器人量产,果断停产特斯拉豪华车型!2026年资本支出将“非常大”
量子位· 2026-01-29 10:30
特斯拉战略转型:停产旧车型,全力投入机器人业务 - 公司宣布将于2026年第二季度停产豪华车型Model S和Model X,为机器人擎天柱(Optimus)的生产线让路 [1][2][3] - 公司计划将加州弗里蒙特工厂的Model S/X生产线改造为擎天柱生产线,改造后机器人年产量目标为100万台 [5] - 公司正从“汽车公司”向“自动驾驶汽车和人形机器人”公司转型,停产旧车型是此战略转型的一部分 [9] Model S/X停产原因分析 - 两款车型销量占比低且持续下滑:2025年,包含Model S/X和Cybertruck的“其他车型”销量为50,850辆,仅占总交付量1,636,129辆的约3% [8] - “其他车型”销量同比大幅下降:2025年“其他车型”销量较2024年下降了40.2% [8] - 季度生产与交付数据印证下滑趋势:2025年第四季度,“其他车型”产量为11,706辆,同比下降48%;交付量为11,642辆,同比下降51% [9] - 两款车型被定位为“情怀”产品,而机器人业务被视为“经济增长的重大推动力” [7][9] 公司近期财务表现 - 2025年第四季度净利润为8.40亿美元,较上年同期大幅下降61% [10] - 2025年第四季度总营收为249.01亿美元,同比下降3%;汽车业务营收为176.93亿美元,同比下降11% [11] - 能源与服务业务表现亮眼:2025年第四季度能源业务营收38.37亿美元,同比增长25%;服务及其他业务营收33.71亿美元,同比增长18% [11] - 公司现金储备充裕:截至2025年第四季度末,现金、现金等价物及投资总额为440.59亿美元,同比增长21% [11] 技术传承与资本规划 - 公司强调电动汽车核心技术将传承至机器人业务,共享技术包括执行器、电力电子、电池、制造工艺、AI算法等12项核心领域 [12][13] - 公司计划向马斯克旗下的人工智能公司xAI投资20亿美元,该投资预计在2026年第一季度完成,旨在增强公司AI产品部署能力 [14][15] - 公司2026年资本支出计划“规模空前”,预计将超过200亿美元,是2025年85亿美元的2倍多,主要用于工厂投资及加速机器人生产 [17] 关联公司进展(Neuralink) - 脑机接口公司Neuralink的下一代“赛博增强装置”将实现3倍性能提升 [18] - Neuralink已启动帮助盲人恢复光明的新项目,旨在让完全失明者以低分辨率“看见”并逐步提升分辨率 [19] - 已有21人参与Neuralink的脑机接口实验,成果包括受试者能用“意念”控制鼠标,以及瘫痪者重新开始艺术创作 [21][23]
全球最强AI音乐模型,现在来自中国!高晓松也来围观了
量子位· 2026-01-28 21:33
一水 发自 凹非寺 量子位 | 公众号 QbitAI 把AI模型发布会开在Livehouse,昆仑天工你是懂氛围感的(doge)! 虽然乍一听有点奇怪,但如果告诉你这里正在发布的是一款 音乐模型 ,估计你也就get到它的小巧思了。 先不说别的,咱这就火速品鉴一下这支由 新模型Mureka V8 提供BGM的MV: 在发布会现场,昆仑万维董事长兼CEO方汉表示: 为什么要把Mureka当品类来做?这其实和我们的使命有关——我们想让音乐变成每个人都拥有的表达方式,记录当下的心情、记忆、想 说的话等等。 而当好的AI音乐成为一种新品类,AI版"Spotify"(指旗下的Mureka)会成为行业的灯塔 ,能让创作者被看见,让作品被放大,让行 业形成新的共识。 而他所描绘的这一未来图景,也获得了高晓松及国内顶尖唱片公司负责人的认可。作为离产业一线最近的人,他们对好的AI音乐引发的变革浪 潮,感知也最为敏锐。 是不是很有韩国女团打歌的feeling了~不过从现场来看,这还只是Mureka V8实力的冰山一角—— 在各路音乐人实测中, 它一举打败硅谷顶尖音乐模型Suno V5,登顶垂类世界第一 。 而随着这一标志性节点的出 ...
Figure抛弃10万行C++代码!用1000小时人类数据训练神经网络,实现全身控制基础模型
量子位· 2026-01-28 21:33
henry 发自 凹非寺 量子位 | 公众号 QbitAI 美国机器人界掌管demo的神,Figure,冷不丁又出一拳! 这一次,他们带来了最新的具身大脑 Helix 02 以及最新的家务demo。 在推特上,Figure老板Brett直接放话: 机器人跳舞没什么难的,真正的难点在智能控制。 我们最强的模型来了,能完成复杂和长时序的任务。 话虽狂,但这次的demo,真的很有说服力。 在视频中,搭载Helix 02的Figure 03,在普通的家庭厨房里,自主完成了洗碗机取盘并放入橱柜的整套流程。 在接近4分钟 的完整任务里,机器人从头到尾 没有重置、没有人工干预、也没有遥操作 ,行走、抓取、搬运、放置等61个操作全部连成一条 连续动作链。 Figure直言,这是迄今为止,人形机器人 自主完成的时间跨度最长、复杂度最高 的任务。 而且必须强调的是,这一次Helix 02 不再是上下半身分别控制 ,而是把视觉、触觉等感知统一接入, 由一个系统直接输出全身动作的端到端 其中新引入的system0还基于1000小时人类数据训练,替代了之前手写的10万多行代码。 对此,前CMU机器人研究员Chong Zhang也表示: ...
量子位编辑作者招聘
量子位· 2026-01-28 12:54
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内 ...
像Vibe Coding一样写论文!OpenAI发布免费科研写作平台
量子位· 2026-01-28 12:54
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 就在今天,OpenAI给肝论文的科研党送上了一份大礼——免费的科研写作平台 Prism 。 它把GPT-5.2模型深度集成到了在线LaTeX编辑器中,能够直接理解论文的完整结构、公式推导与参考文献。 现在,写论文都用上Vibe Coding了! Prism里,找文献、看预览和写正文的流程 都被整合在了一个网页里 。 你随手拍下一张写满推导过程的白板照片,几秒钟后,它们就自动转化为文档里完美排版的LaTeX代码。 Hyperbolic Labs的联创兼CTO Yuchen Jin犀利评价,Prism已经杀死了overleaf(一种LaTeX编辑器),未来的每篇新论文都应该把 ChatGPT列为共同作者。 要知道不久之前,奥特曼刚刚说OpenAI把写作搞砸了,后面的版本会重视写作能力。 结果一个新的写作神器,就这么水灵灵地出现了。 它还能 连接外部数据库检索资料,一键生成BibTeX代码 并插入正文,保证了检索与写作在视线上的连贯性。 针对复杂数学公式的录入, 直接上传一张写满推导过程的白板照片或手写笔记,系统就能精准识别 ,并迅速将其转化为排版完美的LaT ...
蚂蚁具身智能明牌了:做大脑,和宇树们错位竞争
量子位· 2026-01-28 12:54
金磊 发自 杭州 量子位 | 公众号 QbitAI 从3000小时到 整整20000小时 。 真实世界数据里的 Scaling Law ,直接喂出了个 最强VLA(Vision-Language-Action)基座模型! 这就是蚂蚁灵波今天开源的具身智能基座模型—— LingBot-VLA 。 为什么说它是目前最强?先看数据。 从"20000小时"这个量上来看,LingBot-VLA已经解锁了迄今为止开源的最大规模真实机器人数据之一。 并且性能也是够打,在权威评测中也全面超越了此前公认最强Physical Intelligence的π0.5,以及英伟达GR00T N1.6等一众国际顶尖模 型。 | Platform | | WALL-OSS | GR00T N1.6 | | | 70.5 | | Ours w/o depth | Ours w/ depth | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | SR | PS | SR | PS | SR | PS | SR | PS | SR | PS | | ...