机器之心
搜索文档
AI5芯片搞定,马斯克的纯自研超算Dojo 3又回来了
机器之心· 2026-01-21 12:15
文章核心观点 - 特斯拉宣布重启Dojo 3超级计算机项目,该项目将基于其进展顺利的下一代AI5/AI6芯片构建,标志着公司自研芯片与算力体系战略的深化与整合 [1][8] - 此次重启并非项目复活,而是公司资源优先级调整后的自然延续,旨在通过统一架构大幅降低硬件成本与复杂度,摆脱对外部GPU的依赖,并为FSD、Optimus等核心业务提供端到端的算力支撑 [4][9][10] Dojo项目历史与战略调整 - Dojo项目于2021年特斯拉AI Day首次提出,定位为面向机器学习训练的超级计算机,用于处理车辆视频数据并训练自动驾驶神经网络 [1] - 2023年7月Dojo投产后,于2024年8月被马斯克“全面叫停”,团队解散,核心人员离职,原因是公司需集中资源优先开发更具战略意义的AI5芯片 [4] - 当时的暂停被外界误解为项目失败,实则是公司内部在同时推进车载芯片与AI训练芯片两套体系时,进行的资源取舍与路线优先权让步 [4][8] AI5芯片的关键地位与进展 - AI5芯片是特斯拉FSD、Cybercab、Optimus等核心项目的依赖,其成败对公司自动驾驶和自主系统具有“生死攸关”的影响 [5] - 马斯克曾亲自投入以确保AI5开发,公司预计AI5芯片性能可能比前代AI4有高达50倍的提升,目标在2027年投入生产 [5] - 目前AI5芯片设计进展顺利,其单颗SoC性能大致相当于英伟达Hopper级别,双颗则相当于Blackwell级别,但具有成本极低、功耗更低的优势 [9] Dojo 3的新架构与战略意义 - Dojo 3项目旨在将512颗AI5或AI6芯片密集集成于单块主板,形成超级计算机集群,摒弃了前两代依赖自研D1芯片及晶圆级封装的复杂路径 [8][9] - 新架构基于AI5/AI6芯片的统一设计,使单颗芯片能同时处理训练和推理任务,从而将网络布线复杂性与硬件成本降低数个数量级 [9] - 此举是特斯拉摆脱对英伟达GPU依赖、追求自研芯片垂直整合战略的关键一步,旨在自建从训练、推理到车辆和机器人的完整端到端算力体系 [9][10] - Dojo 3提供的强大算力将加速FSD端到端神经网络模型迭代,并为Optimus人形机器人的运动控制、环境感知模型训练提供支撑 [10] 规模化生产与未来展望 - 特斯拉已与三星电子签署一项价值165亿美元的AI6芯片生产协议,为Dojo 3的规模化提供有力支撑 [12] - 马斯克曾称这些芯片将成为“全球出货量最高的芯片”,因其可能被装进数百万辆汽车和机器人,并同时成为背后训练系统的芯片 [11] - 尽管马斯克过去对Dojo 3有过“基于太空的人工智能计算”等推测性言论,但项目实际成效仍需时间验证 [13][14]
推翻150年数学直觉:数学家烧坏几台笔记本,解决几何拓扑难题
机器之心· 2026-01-21 12:15
核心观点 - 三位数学家经过多年研究,利用离散几何理论与计算机算力,首次发现了一对紧致Bonnet曲面(即“紧致Bonnet对”),它们具有相同的局部度量信息和平均曲率,但全局结构不同,从而解决了数学界一个长达150年的猜想,即紧致曲面(特别是环面)是否总能由其局部信息唯一确定[5][7][40][43] 数学理论与历史背景 - 1867年,法国数学家Pierre Ossian Bonnet证明,通常知道曲面上每一点的度量和平均曲率就足以确定其形态,但存在例外[13] - 在Bonnet之后150年间,数学家发现的所有例外都是“非紧致”曲面(如无限延伸或带边缘的曲面),而“紧致”曲面(如球体、环面)被认为可能被其局部信息唯一确定[15][16] - 1981年,数学家证明对于球体及任何无孔洞的紧致曲面,该推测成立;对于带一个孔洞的环面,给定的度量和平均曲率最多只能对应两个不同的环面,但此前从未找到实例,导致学界长期认为环面也能被唯一确定[17][18] 研究方法与突破 - 研究团队转向研究“离散”曲面(即光滑曲面的像素化低分辨率版本),因其在计算机科学、物理学、工程学等领域有广泛应用,且便于计算机处理[22][24] - Andrew Sageman-Furnas提出了Bonnet问题的离散版本,并与合作者找到了一套在离散情形下构造反例的“配方”[25] - 2018年,Sageman-Furnas通过计算机搜寻,发现了一个形状奇特的离散环面(被称为“犀牛”),其具备生成Bonnet对的属性,且生成的Bonnet对也保持紧致[28][29][31] - 团队花费数周甚至数月进行验证,并通过长时间(有时一次8到12小时)的视频通话分析该形状,以克服计算机舍入误差可能造成的假象[32][34] 关键发现与最终成果 - 团队发现“犀牛”曲面的曲率线被限制在平面或球面上,这一特殊性质引导他们寻找光滑的类比物[37][38] - 通过调整一个多世纪前法国数学家让・加斯顿・达布的公式,使其曲率线闭合,团队最终构造出了光滑的“犀牛”类比曲面,并由此生成了一对光滑的Bonnet环面[40] - 最初生成的一对环面互为镜像,团队随后通过调整曲面(放弃一组曲率线必须位于球面上的要求),最终生成了一对明显不同、且自身相交(形状像数字“8”)的扭曲环面,它们具有相同的度量和平均曲率[40][41][45] - 这一发现表明,即使是研究透彻的环面,也并非总能用其局部特征完美描述,挑战了数学界的长期直觉[43][44] 研究意义与影响 - 该成果是对Alexander Bobenko和Tim Hoffmann数十年来在离散曲面研究工作的有力验证,表明离散几何理论可以领先并促成光滑曲面研究的突破[45] - 研究突显了离散曲面拥有自身的数学生命,其世界可以像光滑世界一样丰富甚至更丰富,能揭示出额外的对称性和联系[45] - 这一发现解决了数学界一个长期存在的拓扑学难题,并展示了数学理论与计算机算力结合的巨大威力[1][46]
R1一周年,DeepSeek Model 1悄然现身
机器之心· 2026-01-21 08:32
模型发布与市场影响 - 2025年1月20日,DeepSeek正式发布DeepSeek-R1模型,开启了新的开源LLM时代[2] - 在Hugging Face发布的《「DeepSeek 时刻」一周年记》博客中,DeepSeek-R1是该平台上获赞最多的模型[2] - 一年后,DeepSeek的新模型在GitHub代码库中悄然现身,一个名为Model1的模型引起广泛关注[4][5] 代码库与项目状态 - Model1出现在DeepSeek的FlashMLA代码库更新中,该代码库名为“FlashMLA: Efficient Multi-head Latent Attention Kernels”[6] - 该项目在GitHub上拥有12k stars,102 watching,938 forks[6] - 项目采用MIT许可证,最近一次更新在7小时前[6] 技术架构分析 - 根据代码分析,Model1是DeepSeek下一代旗舰模型DeepSeek-V4的内部开发代号或首个工程版本[9] - 核心架构回归512维标准,而DeepSeek-V3.2沿用d_qk=576的非对称MLA设计(128维RoPE + 448维Latent)[9] - Model1切换到512维,表明在MLA架构上进行了“标准化”回归,可能是为了更好地匹配Blackwell架构的算力对齐或优化了Latent压缩比例[9] 硬件优化与性能 - 代码库出现大量针对NVIDIA下一代Blackwell GPU的专门优化[9] - 新增SM100接口(FMHACutlassSM100FwdRun),直接指向Blackwell架构的核心指令集优化[9] - 在B200上运行需要CUDA 12.9[9] - 在B200上,尚未完全优化的Sparse MLA算子能达到350 TFlops[10] - 在H800上,Dense MLA的计算吞吐量高达660 TFlops[10] 新特性与算子演进 - 引入“Token-level Sparse MLA”,这是Model1相比V3系列最显著的算子演进[11] - 测试脚本中同时出现test_flash_mla_sparse_decoding.py和test_flash_mla_dense_decoding.py,支持Sparse与Dense并行[12] - 采用FP8 KV Cache混合精度,Sparse算子使用FP8存储KV Cache,但在计算矩阵乘法时使用bfloat16以保证精度[12] - 引入新机制:Value Vector Position Awareness与Engram机制[11] - VVPA可能解决传统MLA在长文本下位置信息衰减的问题[12] - Engram机制被认为是公司在分布式存储或KV压缩上的新突破,用于配合Model1的高吞吐需求[12] 模型定位与命名推断 - 在代码中,MODEL1的定位是一个与V32并列且独立的分支,说明它不是V3系列的补丁,而是一个采用了不同架构参数的全新模型[11] - 按照公司的命名惯例,在V3.2之后的旗舰级架构跨越,逻辑上即为V4[11]
AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉
机器之心· 2026-01-21 08:32
核心观点 - 北京大学和清华大学的研究团队提出了一种名为WaveFormer的新型视觉主干网络,其核心创新在于使用**波动方程**作为全局建模机制,以替代传统的自注意力或热传导方程方法[2] - 该方法将视觉特征图视为在“传播时间”内演化的空间信号,通过**欠阻尼波动方程**实现全局交互,旨在同时精准保留图像的高频细节(如边缘、纹理)和低频全局结构,解决了现有方法中高频细节易丢失的问题[2][11] - WaveFormer在多项核心视觉任务(如图像分类、目标检测、语义分割)上实现了**速度、效率与精度的全面超越**,在保持竞争性精度的同时,显著提升了计算吞吐量并降低了计算复杂度[23][29] 方法原理 - 核心思想是**将全局交互从“相似度匹配”转向“波传播动力学”**,把图像特征视为“波场”,让语义信息像波一样振荡传播[10] - 引入了**欠阻尼波动方程的频域闭式解**,该解允许一个“初始速度场”,从而显式地建模空间频率,实现了**频率-时间解耦**:不同频率分量以不同方式振荡和衰减,但都参与全局语义传播[11][12][14] - 关键推导表明,与热方程的高频分量随时间急速衰减不同,WaveFormer的衰减项对不同频率更“公平”,频率差异主要体现在振荡项上,这使得高频细节得以保留[14][16][18] 技术实现 - 研究团队将波动方程的频域解实现为一个名为**WPO**的可替换算子,其核心计算通过快速傅里叶变换在频域进行,全局建模复杂度为**O(N log N)**,远低于自注意力的平方复杂度[18][19][20] - WPO的实现流程清晰:将输入特征图变换到频域,用波动方程的解对每个频率分量进行**振荡式调制**,再逆变换回空间域,完成一次全局语义传播[19] - WaveFormer采用层级式骨干网络结构,由stem和四个阶段组成,每个阶段包含WPO Block,可作为ViT或CNN的即插即用主干网络[20] 性能表现 - **ImageNet-1K图像分类**:WaveFormer-B模型在**10.8G FLOPs**和**68M参数**下,达到了**84.2%**的Top-1准确率[28][32] - **COCO目标检测与实例分割**:使用Mask R-CNN框架,WaveFormer-B在1×训练计划下达到**47.9% APb**和**43.2% APm**,推理速度为**20.4 img/s**,比Swin-B和ConvNeXt-B分别快**48%**和**45%**[30][33] - **ADE20K语义分割**:WaveFormer-B达到**50.5% mIoU**,同时在FLOPs和推理速度(FPS)上均具优势[31][33] - 综合来看,与Swin、ConvNeXt等主流模型相比,WaveFormer在保持竞争精度的同时,**最高可带来1.6倍吞吐量提升和30%的FLOPs降低**[29] 意义与影响 - WaveFormer为视觉基础模型开辟了**频域处理的新路径**,提供了一种新的、受物理启发的建模偏置,用于同时捕捉全局一致性与高频细节[22][35] - 该研究代表了视觉全局建模范式的转变:从**“token相似度交互”转向“语义场的动力学传播”**;从**隐式处理频率转向显式建模高低频演化**;从**黑盒模块转向可解释、可控的传播过程**[36] - 这项成果证明了**经典的物理波动规律能够为现代人工智能提供强大的归纳偏置**,不仅限于视觉领域,也为未来多模态语义传播的研究提供了启示[35][36]
马斯克刚刚真把 𝕏 平台推荐算法给开源了,核心也是Transformer
机器之心· 2026-01-20 19:24
平台推荐算法开源事件 - 公司(原Twitter)已将其核心的“For You”信息流推荐算法完全开源,该算法由与xAI的Grok模型相同的Transformer架构驱动[1] - 公司创始人马斯克曾承诺在7天内开源算法,虽略晚于承诺,但最终实现,并希望未来能遵循每4周更新一次的承诺[4] - 马斯克表示开源是为了透明,承认算法目前“很笨拙”但会持续改进,并声称没有其他社交媒体公司这样做[4] 开源背景与潜在动因 - 此次开源可能部分源于监管压力,2025年7月巴黎检察官曾调查公司涉嫌算法偏见和数据提取问题,马斯克称之为“政治动机的刑事调查”[4] - 2023年12月,欧盟对该公司处以1.2亿欧元罚款,原因是其违反了《数字服务法案》下的透明度义务,涉及“蓝V”订阅、广告库及未向研究人员提供公共数据等问题[4] 新推荐系统技术架构 - 新系统彻底抛弃传统手工规则,大幅减少启发式方法,采用完全的神经网络方式[7] - 系统核心由两个组件构成:Thunder(基于内存的帖子存储与实时数据摄取系统)和Phoenix(机器学习核心组件)[8] - Thunder组件功能包括:从Kafka消费帖子事件、为每个用户维护多种帖子存储、提供亚毫秒级查询,其作用是高速获取用户关注账号的最新内容(站内关系内容)[9][10] - Phoenix组件包含召回(双塔模型)和排序(带候选隔离的Transformer)两大功能模块[10] - 召回模块通过用户塔和候选内容塔将特征编码为向量,并通过向量点积相似度检索最相关的Top-K帖子(站外发现内容)[11] - 排序模块以用户上下文和候选帖子为输入,使用特殊的注意力掩码机制,预测不同互动行为(如点赞、回复、转发)的概率,最终排序分数是这些预测概率的加权组合[8][11] 新算法的推荐逻辑与流量密码 - 新推荐逻辑不再主要依赖点赞数量,而是基于系统对深度互动行为的预测,包括引用评论、私信分享、复制链接、个人主页点击与关注以及停留时长[12] - “不感兴趣”、静音、拉黑、举报等负面行为会被赋予负权重,显著压低内容分发[12] - 情绪化标题和短期刺激型内容的收益正在下降,算法会捕捉后续负反馈,从而惩罚低质量、不可持续的互动模式[13] - 发布频率越高不等于覆盖面越广,系统会对同一作者在同一信息流中的多条内容进行递减加权,刷屏式发布反而会被压制[13] - 关注关系的重要性上升,来自关注者网络的内容保持满权重,而推送给非关注用户的内容会被系统性折扣,降低了“纯病毒式传播”的成功概率[13] - 总体来看,推荐系统正在明确优化长期关系和内容质量,而非短期热度,旨在建立稳定、正向的互动关系以获得更可持续的曝光[14]
刚刚,MiniMax来承包你的桌面了
机器之心· 2026-01-20 19:24
行业趋势与竞争格局 - 2026年被预期为AI智能体(Agent)赛道新一轮爆发之年,行业竞争已进入白热化阶段[1] - 市场出现分化,主要参与者专注于两大方向:提升工作效率与重塑日常生活体验[1] - 国外如Anthropic发布Cowork,国内如千问APP上线“任务助理”,表明国内外厂商均在积极布局[1] MiniMax Agent 2.0产品核心升级 - 公司于2026年1月20日发布第二代智能体产品MiniMax Agent 2.0,将其定位为“AI原生工作台”,在产品形态和能力上进行了深度重构[2] - 产品核心目标是从“靠谱的AI伙伴”升级为能自主执行复杂任务的“进阶型智能协作伙伴”,在自动化执行的广度、深度和专业度上全方位加强[2][5] - 产品升级建立在三大核心支柱之上:桌面端应用、垂直领域专家智能体(Expert Agents)以及用户自定义专家智能体的能力[2][3][5] 核心支柱一:桌面端应用(MiniMax Agent Desktop) - 桌面端应用让智能体跳出浏览器,能够直接操作本地文件和环境,并启动网页自动化任务,实现了本地与云端工作的无缝连接[2] - 该应用已上线Windows和Mac双版本,通过一个全局视角渗透到各职能角色的核心工作流中,旨在将人类从重复性劳动中解放出来[2][3] - 其核心设计是深度打通本地文件,用户指定工作目录后,AI可读取、分析并批量处理该目录下的所有文件,体现了“AI原生工作台”的思路[7][9] 核心支柱二:垂直领域专家智能体(Expert Agents) - Expert Agents旨在打造垂直领域的顶级专家分身,通过封装私有知识和行业独家标准操作流程(SOP)来武装用户[3] - 相比1.0时代依赖的、只能提供70分通用专家组合的多专家系统,Expert Agents可将专家水平提升至95分甚至100分,可靠性有质的飞跃[3] - 官方提供大量开箱即用的Expert Agents以降低操作门槛,用户可在桌面和网页双端限时免费体验该功能[3][4] 核心支柱三:用户自定义专家智能体 - 用户可通过提供更多上下文信息和更自由的自定义设置,创建更懂用户、提供个性化服务的专家智能体[5] - 创建过程简单直观,用户可将行业经验、部门SOP或复杂业务逻辑转化为可重复调用的模块[24][28] - 在面对复合任务时,用户可指挥一支由特定领域专家组成的数字团队进行协作,实现了从“单点能力”向“专家协作”的转变[26][28] 产品实测与功能展示 - 在“刷选题”任务测试中,智能体在2分多钟内成功编写脚本并完成可行性测试,还能提供后续实现定时任务的教程[11] - 在复杂的“读论文并制作技术图谱”任务中,智能体耗时约6分钟,完成了下载文档、分析解读、技术追溯并最终生成和部署展示网页的全流程[12][13][14][15][17] - 在“从多个文档中提取技术博客并制作PPT”的繁琐任务中,智能体耗时23分钟,完成了格式转换、内容读取、链接访问、内容总结及PPT生成等一系列操作[17][18][19] - 智能体能够处理本地环境任务,例如根据用户指令,自动调用本地已安装的ffmpeg工具,对文件夹中的多个视频进行不同倍率的加速处理[22][23] - 多智能体协作功能允许用户启用多个配置好的专家子代理,围绕一个主题进行多视角的深度讨论,由主智能体担任主持人进行调度[26] 战略定位与底层能力支撑 - MiniMax Agent 2.0的战略是重新定义AI能力边界,其重点不在于展示“想得有多聪明”,而在于证明“能把事做到哪一步”,核心是以任务完成率为中心的设计[29][30] - 产品定义的“AI原生工作台”意味着交互逻辑从“人要被动适应Agent”变为“Agent主动适应人”,智能体主动进入工作环境并持续推进任务[30][31][33] - 产品能力背后是公司在模型层面的持续升级:2025年6月的Lightning Attention技术将长序列计算成本从二次方降为线性;10月发布的M2模型定位为Agent & Code Native,采用交错思维和MoE架构,总参数达2300亿,激活参数100亿,其API价格仅为Claude Sonnet 4.5的8%;12月的M2.1模型则深入后端语言,具备全栈工程能力[32] - 公司内部已形成快速自我强化的迭代闭环:模型能力首先被用于内部研发与办公核心流程,据悉过去数周内公司内部接近100%的员工开始使用Agent,高频的真实业务使用反馈又驱动下一轮模型和系统升级[32]
当黄仁勋将存储定义为「AI运行内存」,基础设施该如何实现物种进化?
机器之心· 2026-01-20 18:19
AI算力需求引发的存储市场剧变 - AI算力需求导致全球内存市场出现极端结构性紧缺,一根256GB内存条标价高达5000美元,价格超过英伟达顶配显卡RTX 5090的市场溢价 [1] - OpenAI与三星电子、SK海力士签署大规模DRAM晶圆供应协议,其预估的DRAM晶圆需求可能达到全球DRAM晶圆产能的约40% [2] - 微软、谷歌等大型科技公司也派出采购团队在韩国与主要存储芯片供应商展开密集谈判,以争取更多DRAM和高带宽存储(HBM)供应资源 [2] - 英伟达CEO黄仁勋预测,围绕AI推理与上下文的数据存储正在形成一个“此前从未真正存在过的市场”,其规模很可能成长为全球最大的存储市场之一,因为它承载着全球AI系统的工作内存 [3] - AI的工作负载在访问模式、时延要求和数据生命周期上都与传统系统截然不同,现有存储架构难以满足需求,存储技术本身必须经历一次根本性的重构 [3] XSKY星辰天合的公司概况与战略转型 - 公司成立于2015年5月,已从初创团队成长为独角兽,是中国对象存储市场的领跑者 [8] - 公司肩负中国核心产业超过5500 PB关键数据的安全重任,近三年实现了超过50%的逆势高增长 [8] - 随着业务对性能渴望加剧,其全闪存占比已翻了三倍,达到35% [8] - 公司拥有280个10 PB级以上的超级集群,并跨越了单集群百PB的技术门槛 [8] - 2026年1月15日,公司举办AIMesh产品战略发布会,宣布战略重心从“信息技术(IT)”全面跨越至“数据智能(Data Intelligence)” [5] - 公司致力于通过发布AIMesh全栈AI数据方案,打造开放解耦且绝对中立的数据底座,旨在破解企业私有高价值数据向智慧转化的效率瓶颈 [10] AI时代数据价值的根本性转变 - 过去十年的IT时代,数据中心的功能类似于“图书馆”,价值核心在于数据的“存得进、找得到” [9] - 进入数据智能时代后,数据的价值正在从“被检索”进化为“被计算”,每一份文档和图片都正成为生成未来的燃料 [9] - 企业的数据中心必须从“图书馆”演变为日夜轰鸣的“AI工厂” [10] - 在大模型时代,算法正在走向同质化,数据就是“源代码”,企业真正的差异化竞争优势和护城河在于其自身拥有的独特“专有数据” [11] - 出于安全和合规考虑,高价值的核心数据不能外溢到公有云,构建私有化、安全且可控的AI数据底座成为企业的刚需 [11] - 全球AI企业MiniMax的成功上市证明了在算法日益透明的今天,私有数据资产才是支撑企业估值与竞争力的核心 [12] - MiniMax有PB级的数据存放在XSKY的存储平台上,其中包括最核心的训练数据与推理模型数据 [12] 传统存储架构面临的三大挑战(三堵墙) - **IO墙**:当算力吞吐速度远超存储读写速度时,计算单元被迫空转等待,导致GPU利用率往往低至30%到50% [14][16] - **重力墙**:随着数据体量指数级增长,跨地域流动的高昂成本让数据逐渐沦为孤岛 [14][16] - **内存墙**:随着AI应用向长上下文和复杂智能体演进,KVCache的爆炸式增长让显存撞上物理极限,导致硬件投入成本急剧攀升 [14][16] - 数据显示,2018年至2025年期间,Transformer模型尺寸每2年增长约19倍,而每个加速器的内存每2年仅增长约1.9倍 [19] - 过去20年间,峰值计算能力增长了约6万倍,但DRAM带宽仅增长了约100倍,互连带宽也仅增长了约30倍,导致处理器闲置等待数据 [19] AIMesh解决方案:MeshFS(打破IO墙) - MeshFS是专为AI训练而生的并行文件系统,旨在打破“IO墙” [18] - 系统将XGFS成熟的企业级协议栈与XSEA星飞全闪架构的Shared-Everything极速底座深度融合 [21] - 在性能实测中,MeshFS凭借“一跳读”设计实现了顺序读带宽30%的提升,同时依靠端到端EC写技术让顺序写带宽超出同类产品50% [22] - MeshFS针对英特尔新一代至强处理器的AVX-512与AMX指令集进行了深度优化 [23] - 在大模型企业MiniMax的生产环境中,MeshFS提供了高吞吐、低延迟的I/O支持,有效保证训练效率,并支撑其近万个推理服务在极短时间内上线 [23] - MeshFS提供标准的POSIX语义,现有训练代码无需修改即可运行,并实现“一份数据,多协议互通” [26] - 通过全分布式架构和元数据分片技术,MeshFS的性能可以随节点数线性增长,将元数据处理延迟压低至微秒级 [26] - MeshFS支持智能分层能力,数据可以在全闪存层和低成本层之间透明流动,让用户能够以Tier-2的成本存储数据,同时享受Tier-0的训练速度 [26] AIMesh解决方案:MeshSpace(推倒重力墙) - MeshSpace是面向EB级数据的全局非结构化数据平台,旨在推倒“重力墙” [25] - 该平台实现了从“单桶千亿”到“单桶EB”的架构演进 [28] - 在性能表现上,MeshSpace带领对象存储迈入了“百万OPS单桶时代”,单个对象存储桶可以每秒支持高达一百万次对象写入,以及数百万次对象读取,远超主流公有云产品的单桶性能上限 [29] - XSKY对底层分布式KV引擎进行了优化,让AI训练中关键的大块写性能提升了近50%,同时将延迟降低了30% [29] - MeshSpace通过统一的全局命名空间收敛数据入口,业务端不再需要感知数据的真实物理位置,彻底解决了数据迁移带来的低效问题 [29] - MeshSpace能够直接纳管企业现有的XEOS集群,使过去积累的数据资产无需迁移即可原地升级 [34] - 通过统一的DNS接入,MeshSpace将分散在不同物理机房甚至云端的物理集群抽象为一个逻辑整体,对业务端而言只有一个统一的入口 [34] - MeshSpace支持异构存储平台的统一调度,数据可以在全闪存、HDD甚至磁带之间根据数据温度和业务需求自由流动 [34] AIMesh解决方案:MeshFusion(击穿内存墙) - MeshFusion是一种面向KVCache的“持久化内存”方案,旨在击穿“内存墙” [30] - 该方案运行在GPU服务器内部,通过创新的软件栈将本地NVMe SSD资源池化,转化为可供GPU直接调用的L3级外部内存 [31] - 实测数据显示,该方案能以1%的硬件成本实现近乎无限的上下文窗口,且性能与DRAM的差距保持在10%以内 [32] - MeshFusion拥有三大特性:数据从SSD直通GPU显存的零拷贝、专为KVCache的小IO高并发写入优化的极致并发、以及兼容vLLM等主流推理框架的协议自适应 [35] - 云计算服务商ZStack表示,MeshFusion的SSD扩展内存能力将显著降低AI服务规模化部署的门槛 [32] - XSKY正在与英特尔联合预研基于CXL技术的内存池化方案,旨在彻底打破物理内存边界,为万亿参数模型提供充裕的资源池支持 [32] XSKY的核心战略:数据常青与绝对中立 - 公司提出“数据常青”理念,主张用一个稳固、长周期的底座去支撑上层快速演进的算力竞争 [36][37] - 算力硬件的生命周期通常只有3到5年,而承载企业智慧的数据资产存续周期通常长达10到20年 [36] - 公司始终坚持不绑定任何一种特定的算力平台,无论企业选择英伟达还是昇腾、寒武纪等国产芯片,AIMesh都能提供统一且标准的数据服务 [37] - 这种对中立与解耦的坚守,使公司在生态构建中获得深厚信赖,例如与ZStack在云计算和AI时代均保持紧密合作 [37] - 公司的使命是做企业数据资产的守门人,同时也是AI之路的加速器,通过构建高效、可控的AI工厂,助力企业打破算力与数据的边界 [38][41]
从平面几何出发:形式化验证如何驱动MLLM的推理能力跃迁
机器之心· 2026-01-20 18:19
文章核心观点 - 多模态大语言模型在复杂数学与几何推理中存在幻觉与逻辑断层问题,现有“结果导向”训练方式难以培养真正鲁棒的推理能力 [2] - 研究团队提出“以形式化增强非形式化推理”的系统化解决方案,利用严谨、可验证的形式化逻辑作为监督信号,规范和引导模型在非形式化场景下的推理行为,并发现此方法能提升模型在分布外任务上的泛化能力 [2] 研究方案与框架 - 团队构建了从数据底层到模型顶层的完整闭环,历经三个阶段探索 [3] - **TrustGeoGen**:构建了首个形式化验证的几何数据合成引擎,通过集成多模态对齐、全路径形式化验证及GeoExplore探索算法,生成了逻辑链条经过严格数学验算的GeoTrust数据集 [4] - **GeoBench**:提出了基于分层能力评估的基准测试,将几何推理拆解为视觉感知、目标规划、定理应用、自我反思四个层级,并引入“无关条件过滤”与“逻辑纠错”等高阶任务,以精准定位模型推理短板 [4] - **SGVR**:提出了Sub-Goal Verifiable Reward训练框架,将抽象证明转化为可执行的数值子目标,并利用Skeleton Rate提供密集奖励信号,以纠正“结果监督”的不足 [4] TrustGeoGen数据引擎详解 - 引擎通过constructor, reasoner, sampler和translator四个模块构造问题、扩充推理图谱、回溯推理路径和转译自然表达 [8] - 使用形式化推理引擎DDAR保证每一个结论都由预定义的定理规则得到,确保推理链路的连贯性和可解释性 [8] - 引入connection thinking来构造思考过程性数据,在每一步推理前显式分析当前结论与下一步目标,将推理步骤以深度思考方式连接 [9] - 在sampler阶段采用不同采样方式,获得具有不同思维模板(如多解和回溯)的推理数据,以丰富模型的推理“技能库” [11] - 该引擎不仅生成大量可验证的几何推理数据,更关注自然语言与形式化推理的差异,从模型训练角度生成连贯可信的数据 [13] GeoBench诊断基准与发现 - GeoBench基于TrustGeoGen引擎生成的1021个形式化验证样本,设计了六大核心任务进行全方位评估 [17] - 基准将几何推理能力拆解为四个维度:视觉感知、目标导向规划、严谨定理应用、自我反思回溯 [16] - 实验揭示了现有模型的短板:即使如OpenAI-o3这样的顶尖模型,随着任务复杂度提升,性能也呈现显著下降趋势 [22] - 关键瓶颈在于子目标分解和无关条件过滤,表明模型缺乏“排除干扰、规划路径”的大局观,而非单纯计算能力 [22] - 思维链提示在涉及“错误定位”的高阶反思任务中可能产生负面干扰,导致模型在错误路径上越走越远 [22] - 模型在GeoBench的6个任务上的表现与最终答案正确率的Spearman相关系数显示,传统基准(如GeoQA、Geometry3K)可能掩盖了推理过程的问题 [18] SGVR训练框架与效果 - SGVR框架主张“里程碑重于结果”,利用TrustGeoGen将证明拆解为可自动验证的数值子目标,并引入Skeleton Rate作为核心指标,计算推理链条中正确“路标”的比例 [20] - 配合GRPO算法,密集的中间奖励迫使模型“步步为营”,只有每一步逻辑经得起验证才能获得高分 [20] - 该训练方法在几何推理任务上实现了9.7%的显著性能提升 [24] - 展现出强大的跨域泛化能力:在完全未接触过的通用数学任务和通用逻辑推理任务中,模型在零样本条件下分别获得了8.0%和2.8%的性能跃升 [24] - 消融实验通过调节Mask Ratio探索验证密度的影响,发现验证并非越密越好,存在一个“黄金比例”;适中的验证颗粒度能使模型获得足够纠错信号,同时保留自主推理空间,过度干预可能导致模型过拟合于特定验证路径 [28] 研究意义与未来方向 - 该研究构建了从可信数据合成、分级能力诊断到过程监督训练的完整逻辑闭环,核心是利用形式化验证的严谨性约束与增强非形式化推理过程 [30] - 研究表明,在高度严谨的几何环境中习得的“验证思维”能转化为通用的逻辑素养,实现跨领域泛化 [24][30] - 平面几何不仅是评估模型能力的试金石,更是训练AI具备高阶逻辑思维的最佳演练场 [30] - 未来计划将“形式化增强”范式拓展至通用数学、代码生成、物理模拟等更广泛领域,旨在构建更可信、更鲁棒且具备强大泛化能力的通用推理大模型 [30]
击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了
机器之心· 2026-01-20 18:19
模型性能与突破 - 模思智能发布的MOSS-Transcribe-Diarize模型在多人说话场景的语音转录性能上超过了GPT-4o、Gemini、豆包等一众模型 [1] - 该模型能够轻松应对混乱插话、频繁切话或重叠说话等复杂场景,解决了语音识别领域多人说话场景的落地痛点问题 [1] - 在AISHELL-4、Podcast、Movies等多个语音基准测试中,模型均取得了业界最优的整体表现,尤其是在最接近真实应用的复杂影视剧场景下表现稳定 [2] - 模型在多说话人混合与重叠场景下取得了业内领先的转录准确率,拥有最低的字错误率与最优排列字错误率 [5] - 在说话人分离性能上,模型保持了最好的说话人标签准确性和一致性,优于其他因长音频切片导致识别不一致的模型 [5] - 模型支持128K的长上下文窗口,可以一次性输入并处理长达90分钟的音频,而当前顶尖商业模型受限于输入长度或输出格式的稳定性 [1][5] 技术架构与方案 - MOSS-Transcribe-Diarize是一个统一的端到端多模态语音转录模型,能够同时完成听懂内容、识别说话人及记录说话时间三件事 [8] - 模型主要解决带说话人归属和时间戳的转录这一经典且极具挑战的问题,克服了传统模块化拼接方案、引入LLM的半级联方案以及其他多模态框架尝试的缺陷 [8] - 该模型一举解决了长上下文窗口受限、长时记忆脆弱和缺乏原生时间戳三大核心瓶颈 [9] - 在架构设计上,模型采用统一的音频-文本多模态架构,将多说话人的声学表示投影到预训练文本LLM的特征空间中,在单一框架内联合建模词汇内容、说话人归属和时间戳预测 [11][12] - 在训练数据上,采用“虚实结合”的策略,使用大量真实世界对话音频和通过概率模拟器生成的合成数据进行训练,增强了对重叠语音、轮替等场景的鲁棒性 [13] 基准测试表现 - 在包含近40分钟真实世界会议录音的AISHELL-4数据集上,MOSS-Transcribe-Diarize在CER和cpCER两项指标上大幅优于所有基线模型,并表现出更低的Δcp值 [16] - 相比之下,GPT-4o和Gemini 3 Pro均无法可靠处理AISHELL-4等长音频输入,前者受限于音频输入长度,后者无法生成符合既定格式的有效输出 [16] - 在多说话人播客访谈场景的Podcast数据集上,模型再次取得所有参评模型中最低的CER和cpCER,并在Δcp值上优于其他模型,表明其在频繁话轮转换和长跨度说话人重现场景下归属更准确 [19] - 在复杂影视剧场景的Movies数据集上,面对短促话语、快速交替及频繁语音重叠的场景,模型依然优于所有基线模型,且在CER和cpCER两项指标间保持了较小差距 [21] 公司背景与战略 - MOSS系列模型由复旦大学教授邱锡鹏带领的团队研发,该团队组建的模思智能是一家专注面向情境智能的多模态大模型公司 [24] - 团队保持了清晰的战略技术路径:让大模型理解复杂的真实世界情境,并以情境多模态实现通用人工智能 [24] - 公司发布了一系列多模态领域的前沿技术成果,覆盖实时对话交互、复杂场景音频生成、高鲁棒性语音理解、多模态交互等核心能力场景 [24] - 面向未来,公司将持续深耕让AI理解用户所处全局情境的多模态智能,通过规模化物理世界的复杂真实情境,推动多模态交互与具身智能的产业化落地 [24] - 此前,公司已开源革命性的对话语音合成模型MOSS-TTSD,并发布了实现SOTA性能的无文本引导真端到端语音大模型MOSS-Speech [25]
EmbodiChain开源,用100%生成式数据自动训练具身智能模型
机器之心· 2026-01-20 15:16
行业背景与核心瓶颈 - 大语言模型遵循Scaling Law,但该定律在机器人/具身智能领域失效,核心瓶颈在于高质量交互数据的极度稀缺与昂贵[1] - 行业数据采集范式正朝着更低成本、更便捷的方向演进,从昂贵遥操设备发展到无需佩戴手套、仅凭双手演示的方案[2] - 然而,即使是最极致的物理采集效率,仍受限于物理时间和人力成本,无法匹配大语言模型训练所需的“互联网级”数据规模,这成为具身智能发展的最大桎梏[3] 核心理论:效率定律 - 跨维智能团队提出,在具身智能中,一个被忽视的关键变量是**数据生成的速率**,智能的进化存在一个“逃逸速度”[5][6] - 在大语言模型时代,数据是“存量”,重在清洗;在具身智能时代,数据必须是“增量”,必须具备“创造”数据的能力[7] - 当数据生成速率太慢时,模型参数再大也无济于事;只有当数据生成速率超过临界值,数据像自来水一样源源不断时,模型性能才会随参数量增加而线性释放[8] - 突破瓶颈的关键在于构建一个能够**超高速、自动化生成物理现实的数字世界**,即生成式仿真世界模型[9] 解决方案:EmbodiChain平台 - 跨维智能开源了EmbodiChain,作为通往生成式仿真世界模型的基石,它旨在重构具身智能的学习范式[13] - EmbodiChain的核心假设是:仅凭100%的生成式仿真数据,只要生成速率突破临界点,机器人就能在真实世界中涌现出超越当前最优水平的泛化能力[13] - EmbodiChain的本质是一台将数据生成速率拉满的数据和模型制造引擎,开启了具有物理真实性的数据的批量制造,不再依赖对真实世界的有限采样[15] 三大核心科学难题与攻克 - **难题一:数据生产自动化**。需解决如何仅凭少量先验就在数字世界中自动重建、生成海量且物理一致的场景与任务[16] - **难题二:打破“虚实鸿沟”**。需解决如何在不依赖或尽量少依赖真实数据微调的情况下,让模型习得适应真实世界噪声与动态变化的鲁棒策略[16] - **难题三:突破数据生成的“IO墙”**。训练需要亿级甚至十亿级的交互步数,需构建极致高效的数据流转机制,实现“在线数据流”,摒弃传统的“生成-存储-读取-训练”低效模式[16][18] - EmbodiChain作为去存储化的数字化流水线,通过**在线数据流**和模型自动生产线,让数据在生成的同时即被消费,无需落地存储,只在GPU内部高速运转,训练完即销毁[19][20][22] 技术路线对比与优势 - 当前存在两条路线:**视频生成路线**与**基于生成式仿真的世界模型路线**[24] - 视频生成路线存在“幻觉”问题,生成的画面缺乏长程时空一致性,且难以精确遵循动力学方程,不适合用于训练机器人[24] - EmbodiChain选择的是**基于生成式仿真的世界模型路线**,其理念是对世界状态进行预测与规划,符合物理规律[25][26] - 该路线的关键优势包括:**物理先验**(坚持3D、交互式、物理严谨的世界模型)和**特权信息**(通过让模型预测真实世界中不可见的精确掩码、空间关系等信息,迫使模型理解场景的几何本质)[30] 验证结果与核心能力 - 跨维智能进行了极端测试:**不使用任何真实数据训练模型**[27] - 训练出的Sim2Real-VLA模型在真实世界任务的操作成功率上,大幅领先ACT、Diffusion Policy等主流方法,展现了惊人的鲁棒性[28][38] - 即使更换桌布、移动物体、改变光照,模型依然表现稳定,甚至在某些任务中,由于去除了真实数据中易过拟合的背景噪声,表现比用真实数据训练更好[31] - EmbodiChain平台的核心能力体现在:**世界生成**(从极少真实样本提取先验,自动构建符合物理规律的3D场景)、**数据扩增**(自动进行视觉增强、物理参数随机化,并剔除无效采样)、**自我修复**(当仿真中失败时,系统自动生成修正轨迹,形成“失败-修正”的闭环学习)[29] 未来愿景 - EmbodiChain的开源只是一个开始,其愿景是成为每一位具身智能研究者的基础设施,让研究者无需再为采集几千条数据而进行繁重的遥操作,也无需为几十TB的硬盘存储发愁[34] - 未来的GS-World蓝图是一个引擎驱动的闭环路径,不仅环境与任务是生成的,机器人的策略和身体结构也会随着任务需求协同进化[39] - 最终目标是推动具身智能抵达“效率奇点”,让智能的未来不再受困于数据的匮乏[35][36]