机器之心
搜索文档
吴恩达年终总结:2025是AI工业时代的黎明
机器之心· 2025-12-30 14:57
文章核心观点 - 2025年是人工智能工业时代的黎明,行业从算法竞赛演变为一场涉及人才、算力、基建和能源的工业革命 [13][36] - 尽管行业在人才、资本和基础设施上投入巨大,但推理模型的成熟和编程智能体的进化极大地降低了AI开发的门槛,为开发者创造了前所未有的机会 [36] 2025年AI行业关键趋势 模型能力:推理成为标配并解决更大问题 - 2025年初,模型需明确提示才会执行推理策略,而年底大多数新的大语言模型已默认具备此能力,显著提升了广泛任务的性能 [20] - 推理模型在数学、编程和科学问题解答上表现卓越,例如OpenAI的o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手的第62百分位,而GPT-4o仅为第11百分位 [23] - 当推理模型学会使用工具(如计算器、搜索引擎)时,表现进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比不使用工具时高出3个多百分点 [23] - 机器人动作模型通过强化学习学会推理,在任务上的表现相较于不具备思考能力的模型提升了约8% [23] - 推理能力提升性能的同时也增加了成本和延迟,例如Gemini 3 Flash开启推理时消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[21] - 研究人员正努力提高推理效率,例如Claude Opus 4.5与GPT-5.1取得相同分数,但前者消耗4800万tokens,后者消耗8100万tokens [21] 人才争夺:巨额薪酬成为常态 - 领先的AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬挖角,例如Meta为新成立的Meta Superintelligence Labs向来自OpenAI、Google、Anthropic的研究人员开出高达数亿美元的待遇 [22] - 为抵御挖角,OpenAI提供了更高比例的股票薪酬,加快新员工期权归属进度,并发放高达150万美元的留任奖金 [26] - 具体案例包括:Meta成功招募了OpenAI的Jason Wei和Hyung Won Chung [27];Andrew Tulloch最初拒绝了Meta价值15亿美元的奖金方案,但几个月后改变主意加入 [27];Meta聘请了前Apple AI主管Ruoming Pang,其薪酬方案在数年内累计高达数亿美元 [27];Microsoft AI CEO从Google带走了20多名研究人员 [27];xAI从Meta挖走了十多名AI研究人员 [27] 基础设施:数据中心建设狂潮 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心 [26] - 各大公司规划宏伟蓝图,建设规模堪比小镇、能耗相当于中型城市的设施,据麦肯锡预测,到2030年相关成本可能高达5.2万亿美元 [26] - 主要公司具体计划: - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦的数据中心产能,并预测需求量是该数字的5倍 [31] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量为5吉瓦的数据中心 [31] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心 [31] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是位于印第安纳州的一个2.2吉瓦数据中心 [31] - **Alphabet**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心 [31] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资 [29] 应用落地:智能体编程成为核心战场 - 编程已成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一 [30] - 2024年首个智能体代码生成器Devin将SWE-Bench基准测试的最高水平从1.96%提升到13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务 [30] - 智能体系统性能的快速提升催生了SWE-Bench Verified、LiveBench等一系列新的评估基准 [33] - 2025年初,业界认为智能体仅擅长生成常规代码,但到年底,许多公司报告已开始自动化资深级别的任务,Microsoft、Google、Amazon和Anthropic均表示自身越来越多的代码正由AI生成 [33] - 主要模型与应用进展:Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型 [39];开放权重模型如GLM-4.5和Kimi K2帮助初创公司大幅削减成本 [39];Anthropic推出Claude Code应用,OpenAI随即推出基于GPT-5系列的Codex应用 [39];模型制造商与IDE开发者展开竞争,导致部分IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity [39] 对从业者的建议 - 要真正具备构建AI系统的能力,需要进行结构化学习(如学习AI课程)、持续动手构建AI系统,并可选择阅读研究论文 [6][14] - 在没有理解AI基础的情况下贸然动手,容易导致重复发明轮子或走弯路 [6] - 随着高度智能化的编程助手出现,动手构建的门槛已比以往任何时候都低 [8]
清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测
机器之心· 2025-12-30 12:06
行业背景与核心问题 - 心血管疾病是人类主要致死病因之一 对个体的连续健康监测至关重要[3] - 现实监测面临两难困境:可穿戴设备获取的PPG信号便捷但易受噪声、运动伪影和信号中断影响 而高质量的ECG或动脉血压信号采集则可能带来不适、风险与成本 难以长期连续部署[3] - 高质量的心血管信号难以长期便捷获取 这是智能健康监测系统面临的现实困境[2] 现有研究局限 - 过去研究将问题拆解为单点任务 如信号去噪、缺失片段补全或信号模态转换[4] - 多数现有模型是任务特定、模态特定的 难以在同一个模型中同时覆盖多任务、多模态、多条件建模[4] - 现有方法难以充分利用心血管信号之间天然存在的相关性与互补性[4] UniCardio核心创新与目标 - 清华团队提出统一的多模态生成框架UniCardio 旨在在单扩散模型中同时实现心血管信号的去噪、插补与跨模态生成[2] - 该框架旨在同时完成两大类核心能力:信号恢复(包括去噪和插补)和模态转换(合成难以获取的目标信号)[7] - 其目标是为真实场景中的心血管监测与分析提供更完整的信号视角 为人工智能辅助医疗提供新的解决思路[2][7] 技术方法概述 - UniCardio将多模态心血管信号视为同一生理系统的不同观测 学习它们之间的多模态条件分布关系[11] - 采用扩散模型“从噪声到数据”的生成范式 使用Transformer架构建模时间与模态维度上的依赖关系[11] - 为每个模态配置模态专用的编码器与解码器 并在注意力计算中引入任务特定注意力掩码以约束信息流 使不同任务能在同一网络中被联合学习[11] - 引入面向生成任务的持续学习范式 以“条件模态数逐步增加”的方式分阶段纳入不同任务 以分配足量训练样本并平衡任务贡献 缓解灾难性遗忘问题[13] - 这种持续学习范式带来了跨任务-模态组合的知识迁移效应[13] 实验结果与性能 - 在信号去噪、插补与跨模态转换等任务中 UniCardio相较于多种任务特定基线方法展现出稳定而一致的优势[15] - 在仅使用单一条件模态时 UniCardio已能达到或超越相应的任务特定方法 引入额外条件模态后 生成误差可显著降低 波形恢复稳定性也随之提升[16] - 例如 在PPG与ECG插补任务中 引入多模态条件后 生成误差下降至原来的三分之一量级[16] - 在PPG→ECG等跨模态生成任务中 UniCardio在参数规模远小于部分生成基线的情况下 依然取得了更优或更稳健的结果[16] - 统一建模多模态条件分布本身即可带来跨任务的知识迁移收益 无需为每一种模态组合单独设计模型[17] 下游应用验证 - 将生成信号直接用于下游心血管应用验证 包括异常状态检测与生命体征估计[18] - 在多个未见域数据集上 基于UniCardio生成信号的下游任务性能显著优于直接使用噪声或间断信号 并在多数情况下接近使用真实信号的结果[18] - 在心电异常检测任务中 由UniCardio处理得到的ECG信号使检测准确率与特异性大幅提升 逼近真实ECG信号的表现[18] - 在心率与血压估计任务中 基于生成信号的预测误差也显著低于仅使用可穿戴信号或简单统计基线的情况[18] - 结果表明UniCardio生成的信号在功能层面具备直接支撑下游分析的可用性[19] 可解释性与临床价值 - 生成结果不仅追求误差数值降低 还尽可能保留可被临床专家识别的诊断特征[21] - 可视化展示表明 多类典型ECG异常形态在生成信号中得到复现 临床评估验证了其诊断特征的一致性[21] - 扩散模型逐步去噪的生成过程提供了可观察的中间状态 有助于人类专家理解信号的生成演化过程 从而增强模型的可解释性与可信度[23] 总体意义与应用前景 - UniCardio将心血管信号生成从单任务、单模态组合 推进到了一个更加统一且具备可扩展性的框架[25] - 这类统一的多模态生理信号生成范式不仅有望服务于医疗健康领域中的稳健监测与辅助诊断[25] - 也可能进一步拓展到脑科学、心理学与认知科学等同样依赖多源生理信号的研究场景[25]
招生 | 港科大(广州)数据科学与分析学域2026-27博士项目申请开放!
机器之心· 2025-12-30 12:06
数据科学与分析学域介绍 - 学域旨在通过统一统计学、机器学习、优化及相关技术来推进学科进步,扩展应用以解决现实世界问题,造福社会 [3] - 博士课程提供严谨科研训练,培养学生成为知识广博的科研工作者,使其能在学术或业界灵活运用逻辑、数学、算法与计算机技能检验分析数据,提供洞见并作出睿智决策 [3] 跨学科研究方向 - 研究方向包括数据驱动的人工智能和机器学习、统计学习、工业和商业分析与建模、高性能数据分析系统、数据可视化和信息图表、特定行业的数据分析、安全与隐私、以及面向科学的人工智能 [6][7][9] 博士课程培养模式 - 学习模式分为全日制和非全日制,授课语言为英语 [13] - 学习周期:全日制为3年(已具相关研究型硕士学位)或4年(无相关研究型硕士学位),非全日制为6年 [13] - 学分要求为21学分,包括6学分核心课程和15学分学域选修课程 [13] - 学位由香港科技大学授予 [13] - 学费:全日制博士生每年40,000人民币,非全日制自费博士生每年150,000人民币 [14] - 助学金为每年180,000人民币,仅限全日制博士生,上限4年,所有全日制博士生自动纳入考虑范畴,无需额外申请 [14] - 为正常学习周期内的学生提供住宿 [15] 课程设置 - 核心必修课程共6学分 [17] - 跨学科核心课程需二选一:跨学科研究方法(2学分)或跨学科设计思维(2学分) [18] - 枢纽核心课程包括信息枢纽核心课程:信息科学与技术:基本要素与趋势(2学分) [18] - 其他枢纽核心课程需三选一:功能枢纽导论(2学分)、社会枢纽课程(2学分)或系统枢纽课程(2学分) [18] - 学域专业课程示例共15学分,包括3学分的专业必修课程“面向数据科学的数据挖掘与知识发现” [18] - 专业选修课程示例为12学分,课程包括自动机器学习、面向数据科学的深度学习、高级数据库管理、高级机器学习、并行编程、数据科学与分析基础、数据科学计算、区块链中的数据分析与隐私保护、数据探索与可视化、时空数据分析、图学习导论、大语言模型:理论及实践、计算机视觉及其应用、凸优化和非凸优化I等,每门课程均为3学分 [18][19] 学习成果 - 毕业生将能够识别科学与工程的相关性、影响度和行业洞见 [22] - 掌握数据科学与分析的各种新模型、算法、工具、原理、框架、解决方案与技能 [22] - 表现出数据科学与分析角度的批判性思维与分析技能 [22] - 在数据科学与分析领域使用定性与定量研究方法 [22] - 将基础性研究技能转化为学术研究或业界数据科学实践的能力 [22] - 具备独立思维能力,在汇报与出版科研成果时彰显高效的沟通技巧 [22] - 能够独立地进行原创研究,在数据科学与分析领域具有深厚的知识储备 [23] 申请要求与流程 - 学位要求:需在入学前从受认可的大学或机构获得本科学位,成绩优异或有至少1年全职/2年兼职的研究生研究经历 [27] - 英语要求:需满足托福网考80分、托福pBT 550分、托福修订纸笔考试60分或雅思(学术类)总成绩6.5分(各项不低于5.5分)之一,母语为英语或学士/硕士阶段授课语言为英语的申请人可免 [29] - 2026-27秋季项目申请时间线:系统于2025年7月21日开启,中国籍学生截止时间为2026年7月15日,国际学生截止时间为2026年6月15日 [28] - 2025-26春季项目申请截止时间:中国籍学生为2025年12月26日,国际学生为2025年12月5日,招生采取滚动录取,建议尽早申请 [30] - 申请步骤包括创建网上申请账号、准备并提交申请材料、联系导师(博士项目申请人)、资格审核与面试、发放录取通知书 [31]
Manus被收购,智谱也定了8天后上市
机器之心· 2025-12-30 12:06
公司上市动态 - 智谱华章于2026年12月30日正式启动港股招股,计划于2026年1月8日以股票代码“2513”在香港联交所主板挂牌上市 [2] - 公司拟全球发售3741.95万股H股,其中香港公开发售187.1万股,国际发售3554.85万股 [3] - 每股发行价定为116.20港元,扣除费用后预计募资约43亿港元,对应IPO市值预计超过511亿港元 [3] - 基石投资者阵容亮眼,合计拟认购29.8亿港元,占本次发行规模近七成,包括高毅资产、泰康人寿、广发基金等11家机构 [4] 公司估值与融资 - 公司在私募市场累计融资额达83.44亿元,最新估值为243.77亿元 [3] - 相较于私募市场估值,其IPO市值预计超过511亿港元,市值几乎实现翻倍 [3] 行业竞争格局 - 2024年曾被热捧的AI大模型创业阵营“六小虎”已出现分化,两家退出基座模型竞争转向垂直应用 [8] - 智谱与MiniMax、月之暗面、阶跃星辰四家公司仍留在大模型竞争牌桌之上 [9] - 智谱与MiniMax于2024年12月中下旬先后披露港股招股书 [9] 公司业务与市场定位 - 与专注to C的MiniMax不同,智谱主要专注企业级方案(to B),已落地金融服务、互联网、智能设备、医疗等行业 [10] - 公司主要提供从算力、API接口到MaaS(模型即服务)的服务,支持本地和云端两种部署模式 [15] - 截至2025年6月30日,智谱模型已为超过8000家机构客户提供支持;截至最后实际可行日期,已为约8000万台设备提供支持 [27] 财务与运营状况 - 2025年上半年,公司收入为1.91亿元,期内亏损高达23.58亿元 [11] - 同期AI研发成本高达15.95亿元 [11] - 公司曾于2025年4月在证监会北京监管局开启A股上市辅导备案,但截至12月12日未获进一步推进,因此转向港股上市 [13] 技术发展历程与核心架构 - 公司技术体系以GLM为核心,覆盖文本、多模态与面向应用的模型服务 [16] - GLM是基于Transformer的大语言模型建模范式,结合自回归生成与掩码预测,由智谱与清华大学相关研究团队提出 [16] - 2021年发布中国首个专有预训练大模型框架GLM,并推出模型即服务(MaaS)平台 [17] - 2022年发布并开源千亿参数模型GLM-130B [18] - 2024年1月上线GLM-4,支持更长上下文,推理速度更快,成本降低 [19] - 2025年7月开源GLM-4.5,首发48小时内登顶Hugging Face热门榜全球第一 [20] - 2025年9月发布并开源GLM-4.6,主要强化编码能力,同年11月在CodeArena上位列全球第一 [21] 最新模型性能 - 2025年12月推出最新旗舰模型GLM-4.7,在多项能力上取得显著提升 [22] - 核心编码:SWE-bench得分73.8%,较GLM-4.6提升5.8个百分点;SWE-bench Multilingual得分66.7%,提升12.9个百分点 [22] - 氛围编程:UI生成质量跃升,能生成更简洁现代的网页界面,演示文稿生成布局与尺寸控制更准确 [22] - 工具调用:在BrowseComp覆盖的网页浏览任务中实际操作能力更强 [22] - 复杂推理:在HLE基准测试中取得42.8%的成绩,相比GLM-4.6提升12.4个百分点 [22] - 在多项基准测试中与GPT-5、Claude Sonnet 4.5、Gemini 3.0 Pro等国际主流模型相比表现出色 [24][25] 产品矩阵与生态 - 发布了面向不同功能的多模态模型,包括CogView(图像生成)、GLM-4.5V(视觉理解与推理)、CogVideoX(视频生成)等 [25] - 在AI Agent方面,基座智能体模型为AutoGLM,并于2025年12月将其核心模型全面开源 [26] 商业模式 - 公司从2021年开始布局MaaS商业模式 [28] - MaaS平台主要提供语言模型、多模态模型、智能体模型和代码模型四类核心模型能力,并提供模型微调、部署及智能体开发的一体化工具链 [28]
港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型
机器之心· 2025-12-30 07:36
研究背景与动机 - 当前视频-音频联合生成的开源方案主要分为“级联式”和“端到端联合生成”两类,前者易导致音画割裂,后者为对齐多模态通常需在自注意力层外设计额外融合模块,破坏了Transformer架构的简洁性并可能阻碍扩展[8] - JoVA框架提出一种更简洁的设计,直接使用联合自注意力层进行视频和音频模态特征的融合与对齐,无需引入新模块,同时承担单模态建模与跨模态融合任务[8] 方法设计 - 架构基于Waver基础模型,通过复制预训练视频主干网络参数来初始化音频扩散模型,使用MMAudio VAE将音频转换为声谱图潜在表示[10] - 采用两阶段训练:预训练阶段视频和音频模态独立训练,后续阶段整合进同一架构并行处理,视频生成支持参考图像作为条件输入[10] - 核心创新是采用联合自注意力机制,将视频、音频及对应文本Token拼接后输入共享的自注意力层,允许不同模态Token在每一层直接交换信息[12] - 为确保时间同步,模型采用了源自MMAudio的时间对齐旋转位置编码,在时间维度上同步了两种模态的位置编码[12] - 为解决唇形同步问题,引入了潜空间嘴部区域感知监督:通过面部关键点检测定位嘴部区域,映射到VAE潜空间,并在训练损失函数中增加专门的嘴部区域损失项[13] 训练数据集与策略 - 训练数据集包含Text2Audio、Text2Video-Audio及Text2Avatar-Speech三部分,总计约190万条训练样本[4][17] - 数据标注采用自动化流水线,使用Tarsier2生成视频描述,Audio-flamingo3生成音频描述,并利用Whisper进行自动语音识别以获取语音文本[17] - 采用两阶段训练策略:先进行80K步语音单模态独立训练,再进行50K步联合视听训练,推理时使用分类器无关引导以提升生成质量[17] 实验结果:性能对比 - 在UniAvatar-Bench基准上,JoVA在视频动态程度(MS 0.98)和美学评分(AS 0.47)上领先,身份一致性(ID 0.78)在联合生成任务中处于合理范围[20] - 在Verse-Bench基准上,JoVA展现了在多样化场景下的鲁棒性,语音准确性词错误率低至0.11,视听对齐LSE-C得分为6.51[21][23] - 在唇形同步关键指标上,JoVA的LSE-C得分为6.64,优于联合生成模型OVI(6.41)和Universe-1(1.62),甚至超过了使用真实音频驱动的Wan-S2V(6.43)[21][26] - 在语音与音频质量上,JoVA取得了最低的词错误率(WER 0.18),并在多项音频生成指标上取得最佳分数[26] 实验结果:模型效率与扩展性 - 基于Waver-1.6B主干(总参数量32亿)的JoVA模型,仅使用190万训练数据,其LSE-C得分达到6.20,显著优于参数量更大(71亿)且训练数据更多(640万)的Universe-1模型(LSE-C 1.62),并与109亿参数的OVI模型具备竞争力[24][25] - 当参数量增加至240亿时,JoVA在各项指标上达到最佳水平,LSE-C提升至6.64,WER降至0.18[24][25] 实验结果:消融分析 - 嘴部感知损失权重实验表明,当权重为0.0时,模型无法学习细粒度唇形对齐(LSE-C仅为1.39),权重增加至5.0时,LSE-C显著提升至6.64,且未损害其他质量指标[27] - 采用时间对齐的RoPE相比未对齐版本,LSE-C从6.58提升至6.64,尽管在音频分布相似度上存在轻微折损,但显著增强了帧级时间对应关系[28] - 联合自注意力机制在唇形同步(LSE-C 6.64)和语音准确性(WER 0.18)上均优于交叉注意力变体,证实了在统一注意力空间内直接处理多模态Token更能促进有效对齐[29][30]
突发!Meta官宣收购智能体初创公司Manus
机器之心· 2025-12-30 07:36
收购事件概览 - Meta公司宣布收购智能体初创公司Manus,具体交易金额等细节尚未公布[1] - Manus公司于今年3月推出全球首款通用AI智能体后迅速走红,成为行业焦点[1] - 今年4月,Manus母公司完成7500万美元融资,估值接近5亿美元,投资方包括基准资本等知名风投[1] - 收购前,Manus总部及核心研发团队已搬迁至新加坡[1] 交易双方表态 - Meta首席AI官Alexandr Wang表示,Manus团队在探索模型能力潜力方面处于全球领先地位,其加入将帮助Meta打造令人惊叹的AI产品[4] - Manus创始人兼CEO肖弘认为,此次收购是对其构建的通用AI智能体未来的验证,证明其方向正确且发展速度超预期[5] - 肖弘强调,AI时代的真正开始意味着智能体不仅能“说话”,更能“行动”、“创造”和“交付”,公司未来将在更大规模上构建这一愿景[5] Manus业务与技术能力 - Manus已打造出领先的自主通用智能体,可独立执行市场调研、编码和数据分析等复杂任务[6] - 自推出通用AI智能体以来,已处理超过147万亿个令牌,并创建了超过8000万个虚拟计算机[6][10] - 公司专注于构建通用型AI Agent,以帮助用户高效完成研究、自动化和复杂任务,并持续迭代产品以提升实用性和可靠性[10] - 截至目前,Manus已为全球数百万用户和企业提供服务[6][10][11] 收购后的整合与发展计划 - Meta计划继续运营和销售Manus的现有服务,并将其技术整合到Meta的产品中[6] - Manus的卓越人才将加入Meta团队,为Meta的消费品和企业产品(包括Meta AI)提供通用智能体能力[7] - 双方合作旨在将领先的智能体带给全球数十亿用户,并为使用Meta产品的企业解锁更多机会[6][8] - Manus将继续通过其App和网站为用户提供产品和订阅服务,公司将继续在新加坡运营,以确保不影响用户正常使用[10] - 未来计划将Manus的服务扩展到Meta平台上的数百万企业和数十亿用户[11] - 创始人肖弘表示,与Meta合作能使公司在不改变运作方式和决策机制的前提下,在更强大、可持续的基础上发展[11]
全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度
机器之心· 2025-12-29 16:22
模型发布与核心意义 - 研究团队推出了首个在大规模多样化数据集上训练的全景度量深度基础模型Depth Any Panoramas,旨在解决全景深度估计领域长期面临的“数据荒”与“模型泛化差”瓶颈 [2] - 该模型统一了室内外场景,通过200万量级的数据引擎与创新的几何一致性设计,刷新了多项基准测试纪录,在多种开放世界场景下保持优异效果 [2] - DAP的出现标志着全景深度估计正式进入了开放世界时代,为自动驾驶、机器人避障提供更广阔的全知视角,并为3D场景重建、VR/AR内容创作提供了极低成本的深度获取手段 [20] 数据引擎构建 - 为突破数据规模限制,团队构建了规模空前的全景数据引擎,将数据量推向了200万级别 [7] - 数据来源包括:从互联网收集并精细过滤的170万张真实全景图;利用基于虚幻引擎5的AirSim360模拟器生成的9万张高质量室外航拍数据;以及引入DiT360模型生成的20万张室内全景图 [9] - 数据构成覆盖室内场景50万张,室外场景150万张,其中合成数据30万张,真实世界数据170万张 [8] 模型训练与架构设计 - 模型采用三阶段伪标签精炼管线来淬炼高质量监督信号:第一阶段使用小规模精准合成数据训练场景不变标注器;第二阶段引入深度质量判别器,从190万预测结果中筛选出最靠谱的60万样本再次训练;第三阶段在汇集了精炼伪标签和原始强监督标签的200万数据集上完成最终训练 [10][11] - 模型架构采用DINOv3-Large作为特征提取骨干,并设计了距离自适应分支,允许用户根据应用场景切换深度感知范围 [15][16] - 引入了包括SILog损失、锋利度损失、表面法线损失以及点云一致性损失在内的联合优化,专门针对全景图的等距柱状投影进行了畸变补偿 [16] 性能表现 - 在极具挑战性的户外测试集Deep360 / DAP-Test中,DAP的绝对相对误差为0.0781,显著超越了此前DAC的0.3197和Unik3D的0.2517 [17][18] - 在室内场景的零样本测试中,DAP的绝对相对误差大幅下降,在没有进行任何微调的情况下保持了极高的预测一致性 [17] - 模型对由Gemini或DiT-360等合成的全景图展现出了极佳的预测效果,生成的深度图边缘锐利、逻辑自洽,并且在处理全景视频流时具备优秀的帧间一致性与稳定性 [4]
AI引爆内存荒:手机电脑不仅要涨价,还要减配
机器之心· 2025-12-29 16:22
文章核心观点 - AI发展引发的内存结构性短缺正蔓延至消费电子领域,导致电子设备价格持续上涨且短期内难以缓解,建议消费者尽早购买设备 [1][3][18] AI发展导致内存结构性短缺 - AI工作负载高度依赖大容量、高带宽内存,训练和推理系统无法在不损害性能的前提下缩减内存配置 [8] - 以处理100万token的长上下文为例,推理过程可能需要约60GB至100GB以上的高速DRAM,相比常见的8K token场景需求出现约60倍的跳增 [8] - AI公司正投入数十亿美元在全球快速建设数据中心,这被视作一种结构性的市场转变,而非周期性波动 [9] 内存市场供需失衡与价格飙升 - 当前RAM芯片的需求比供应高出10%,且制造商购买DRAM芯片的成本在本季度比上一季度高出50% [4] - 若生产商想更快拿到芯片,需支付原价两到三倍的费用 [4] - 预计DRAM价格在接下来的季度将再上涨40%,且2026年价格不会下降 [5] - 有实例显示,消费者在12月17日购买的内存条,8天后价格上涨34% [7] - 到2026年,仅云端高速内存的消耗量就可能达到3艾字节(EB) [10] AI对内存产能的挤占效应 - AI竞赛焦点正从算力转向内存容量和推理成本,对HBM和GDDR7等高速内存的需求飙升 [10] - 高速内存制造更消耗产能:生产1GB HBM所消耗的晶圆产能相当于4GB标准DRAM,GDDR7则是标准DRAM的1.7倍 [10] - 2026年全球DRAM总产能预计为40EB,而AI的“等效消耗”将占到总产量的近20% [10] - DRAM年产能增长仅有10%至15%,AI需求激增将挤压PC、智能手机和服务器DDR5等标准DRAM产品的供应 [10] 芯片制造商策略与行业影响 - 内存芯片制造商正将更多产能倾斜给利润更高的AI领域高端内存,相应减少了消费电子产品的芯片供应 [12][13] - 美光科技CEO表示,在可预见的未来,整个行业的供应量将大幅低于需求 [13] - 行业面临产能瓶颈,现有工厂设施到2026年底将达到扩张极限,而新的工厂要到2027年才能投产 [16][17] 对消费电子产品的连锁影响 - 电子设备制造商面临巨大的物料成本压力,可能将成本转嫁给消费者 [14] - 未来至少一年半到两年内,消费者将面对持续上涨的电子设备价格 [18] - 制造商可能采取叫停降价促销、缩减产品规格(如手机内存从16GB减至12GB或8GB)以及DRAM规格向下分级等措施 [19] - 高端产品将通过调整定价和促销策略转嫁成本,中低端产品则可能被迫涨价或加速停产退市 [19] - 内存短缺还可能连带导致GPU供应紧张,供应链报告称英伟达计划在2026年上半年将其RTX 50系列显卡产量缩减30-40% [14] - 英伟达在2026年的市场重心将转移到AI芯片和“AI工厂”,预计不会发布全新的消费级GeForce架构GPU [14]
深度拆解沐曦MXMACA软件栈功能,算力自主+生态兼容,破解国产GPU落地难题
机器之心· 2025-12-29 12:44
文章核心观点 - 沐曦股份发布了其全栈自研异构计算软件栈MACA的全新版本3.3.0.X,该版本通过构建高度兼容的“万能接口”,旨在以极低的迁移成本将现有CUDA生态应用无缝迁移至其自研GPU平台,从而解决国产GPU面临的生态兼容核心挑战,并提升从算力到生产力的转化效率 [4][7][9][12][37][38] MACA软件栈的定位与核心作用 - MACA被定义为连接公司自研GPU硬件(曦云C系列、曦思N系列)与上层应用生态的关键纽带,是全栈软件体系的核心 [6][7] - 其覆盖了AI芯片工作流程的底层驱动、编译器、算子适配、训练推理框架、行业场景优化等全链路能力,旨在有效释放硬件算力 [9] 生态兼容性:构建“万能接口” - 新版本MACA的核心逻辑是构建一个“万能接口”,让现有生态能够近乎无缝地迁移到沐曦平台 [9] - 公司对GitHub上4490个含CUDA关键字的活跃代码仓库进行适配测试,其中4173个项目可直接适配运行,成功率高达92.94% [10] - 仅有260个项目(占比不足6%)需要微小调整,且修改主要涉及编译配置,而非核心业务逻辑,实现了现有CUDA项目的近乎“开箱即用” [10][12] 主流AI框架与操作系统的兼容 - MACA 3.3.0.X完成了对PyTorch 2.8的深度适配,覆盖全部2650个核心算子(其中GPU算子2410个) [15] - 兼容TensorFlow、PaddlePaddle、JAX等主流开源框架,以及Megatron-LM、DeepSpeed等大模型训练框架和vLLM等推理框架 [15] - 在操作系统方面,兼容Ubuntu、CentOS、RHEL、openEuler、Anolis OS、银河麒麟等主流Linux发行版 [15] - 支持混合精度训练、分布式训练、torch.compile编译优化等关键特性,适配无需调整工程构建逻辑 [15][16] 软件栈的完整架构与工具链 - MACA是一个完整的软件栈,包含开发效率引擎层和垂直场景赋能层两大核心部分 [18] - 开发效率引擎层提供了一系列针对沐曦GPU优化的高性能算子库,如mcBLAS、mcDNN、mcFlashAttention,并包含编译器、性能分析等全套自研工具链 [18][20][21][24] - 垂直场景赋能层针对AI与科学计算两大方向进行优化:AI领域优化训练与推理框架;科学计算领域重构MPI、BLAS库并移植OpenFOAM、GROMACS等框架 [22] 大模型训推一体化能力与性能优化 - 通过自研的MetaXLink高速互连技术,硬件层面构建了支持万卡级集群的低时延、高带宽分布式通信网络 [27] - 软件层面,MACA通过拓扑感知的高性能通信库和编译器优化模块,实现算子自动融合、通信与计算重叠等优化 [27] - 支持“训练-微调-推理-部署”全流程链路贯通,无需二次适配,缩短了大模型从研发到落地的周期 [29] - 关键性能优化包括:针对FlashAttention优化减少显存数据搬运开销;千卡集群训练推理线性度稳定在95%以上;专家并行效率提升15%;通过通信-计算重叠优化提升GPU利用率15%-30% [30][31] 垂直行业场景赋能与战略布局 - MACA是公司“1+6+X”战略的重要组成部分:“1”代表数字算力底座,“6”代表赋能金融、医疗健康、能源等六大核心行业,“X”代表具身智能、低空经济等新兴行业 [34] - 在搜广推、AI for Science(如材料、天气模拟、药物研发)等多个垂直场景进行了深度适配与优化,旨在将算力高效转化为行业生产力 [35][40] - 公司选择了基于全自研GPGPU核心IP及自主指令集的路线,保证了算力体系的安全合规、性能针对性与演进自主权,同时通过MACA实现与现有生态的高度兼容 [37]
上线不到一年,收徒百万,首个真人级AI导师技术底牌首次曝光
机器之心· 2025-12-29 12:44
公司产品“爱学”的核心表现与市场定位 - 产品“爱学”是国内首个真人级AI一对一导师产品,由与爱为舞公司于2025年初推出,上线不到一年已被超过百万名学员使用[3] - 产品完课率高达92.4%,单次课可能持续1-2小时且无真人介入,单个学员最长学习时长已达9000分钟[4] - 在AI课堂中,单次课的答题正确率从59.1%提升至83.2%[5],部分课程正确率超过95%[38] - 产品已实现全年龄段覆盖,并提供“多学科+长课时”的深度陪伴,突破了市场上AI导师多局限于单一学科的现状[13] 公司技术架构与核心能力 - 公司自研了国内首个AI原生教育框架,这是一个打通了“数字人+语音+大模型+工程”的全栈技术体系,成为国内首个在教育场景下打通全栈技术能力的公司[13] - 核心教学系统被设计为一个持续演化的马尔科夫决策过程,AI导师的每一次互动都是在当前学员状态下做出的最优教学决策[21][22] - 技术体系包含三大基础模型体系,覆盖从感知的“皮囊”到负责决策的“灵魂”的AI教学核心能力闭环[18] - 工程系统实现了高并发与低延迟,在万人并发下,将ASR、教学决策、内容生成、TTS、数字人驱动到音视频推流的整条长链路压缩到1.0–1.6秒,做到即问即答[54] AI教学范式的创新:从“答题”到“会教” - 公司认为新一代AI教育范式应“因材施教、授人以渔”,致力于解决“会教”的问题,而非停留在搜题、批改或简单交互的“舒适区”[8][10] - AI导师采用启发式教学,例如通过追问与对比引导学员自己发现语法规律,并做到举一反三,而非直接给出答案[11][12][13] - 公司通过构建可运行的AI教学环境来系统性生成训练数据,数据被拆解为学科本体、教学方法和真实课堂中的学员交互数据三层核心要素[27][31] - 训练体系结合了SFT和RL,通过思维链注入名师经验和GRPO算法进行强化学习,让AI在数亿次模拟试错中打磨出“教学直觉”[30] 感知层技术的突破:语音与数字人 - 自研多模态语音理解模型,在ASR解码底层引入教学语境约束,将ASR准确率从行业约80%提升至95%以上[41] - 自研流式TTS大模型将首字延迟压到300ms以内,并能随语境动态调整节奏、重音与情绪[42] - 实现了全双工语音交互,打断识别准确率达90%以上,允许学员随时插话[44] - 数字人系统实现了极致的实时互动与长期一致性,通过架构解耦与性能优化,达到百FPS级实时生成,并确保45分钟课程中外观与动作自然一致[47][48][52] 数据驱动与个性化教学效果 - 公司依靠真实的教学互动数据形成数据飞轮,驱动算法以周为单位迭代,目前已更新20多个版本[36] - 通过数据飞轮持续优化互动频次与质量,每节课有几十次一对一互动,学员有效回答率提升到95%以上[37][38] - 个性化教学通过定制教学目标、路径、交互与作业巩固实现,将学员做题准确率从不足60%提升到83%[34][38] - 为补充数据,引入了自博弈机制,让“学员模拟器”与“AI导师”在虚拟课堂中对弈,自生成千万级训练样本[32]