Workflow
原生多模态
icon
搜索文档
商汤林达华万字长文回答AGI:4层破壁,3大挑战
量子位· 2025-08-12 17:35
核心观点 - 多模态智能是当前AI发展的关键趋势,商汤科技通过"原生多模态"技术路线和"四次破壁"演进框架,推动通用人工智能(AGI)的发展 [1][2][4][6] - 商汤科技发布的日日新6.5模型实现了"图文交错思维"突破,标志着多模态推理能力的显著提升 [16][21] - 公司通过统一融合模型架构、优化数据生产体系和创新组织模式,在多模态领域保持领先优势 [12][25][40][41] 多模态智能的重要性 - 智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的,仅依赖文本数据的语言模型无法构建真正的AGI [7][8] - 多模态模型必须能够处理和理解图像、声音、视频等多种模态的信息,才能具备通用性 [8] - 商汤将多模态锚定为技术主轴,从日日新6.0开始只发布多模态模型,这在国内大模型厂商中独树一帜 [12] 技术路径选择 - 实现多模态模型主要有两种技术路径:适应训练(嫁接模式)和原生训练(融合模式) [11] - 商汤通过大规模对比实验确立了"原生多模态"技术路线,采用从预训练阶段就混合多种模态数据的融合模式 [10][11] - 实验证明,在合适的数据配比下,一个原生多模态融合模型在纯文本和图文任务上的表现都优于各自独立的专门模型 [23] 四次破壁演进框架 - 第一次破壁:Transformer实现长序列建模,为大语言模型奠定基础 [14] - 第二次破壁:语言与视觉会合形成多模态理解,模型学会跨模态关联 [15] - 第三次破壁:突破逻辑与形象思维边界,实现多模态推理,日日新6.5引入"图文交错思维链" [16] - 第四次破壁:突破与物理空间边界,实现与真实世界交互,即具身智能 [22][24] 数据体系构建 - 多模态训练最关键的数据是强关联的"图文对",商汤通过大规模自动化构造解决了稀缺问题 [26][27] - 建立"续训验证"机制确保数据质量,只有能带来性能增益的数据才会被准入 [28][29] - 采用"人写种子+自动扩展+强化学习"三段式方法获取高阶专业数据 [31][32][33][34] 模型架构优化 - 模型架构设计的核心是效率,而非单纯追求更大参数规模 [36] - 日日新6.5推动视觉编码器轻量化(参数量从60亿减至10亿),同时使MLLM主干网络更深更窄 [38] - 架构调整结合数据优化使模型效率提升超过3倍,实现比肩顶级模型的效费比 [38][39] 创新力源泉 - 计算机视觉起家的技术基因使公司对多模态价值有更早更深刻的理解 [40] - 重构研究组织实现资源统一调度,设立专项创新小组探索高风险高回报方向 [41] - 构建"基础设施-模型-应用"三位一体的正向循环,使技术理想与商业价值相互促进 [42][43]
腾讯张正友:具身智能必须回答的三个「真问题」
机器之心· 2025-08-10 12:31
腾讯具身智能开放平台Tairos发布 - 公司发布具身智能开放平台Tairos,以模块化方式提供大模型、开发工具和数据服务,旨在为行业提供通用支撑体系 [2] - 该平台基于Robotics X实验室七年技术积累,涵盖多模态四足机器人Max、轮腿机器人Ollie、灵巧手TRX-Hand等自研项目 [2] - 平台化路径是对行业挑战的回应,也预示未来生态布局,在技术路线尚无定论背景下具有战略意义 [2] 分层架构的技术路线选择 - 分层架构是当前更务实路径,源于效率与现实权衡,将人类对智能结构的先验知识注入模型架构 [5][6] - SLAP³架构包含多模态感知模型、规划大模型和感知行动联合大模型,边界动态变化 [7][8] - 感知行动联合大模型(小脑)负责快速反应(系统1),感知和规划大模型(系统2)处理复杂任务 [9] - 底层经验通过记忆库机制反哺上层模型,实现闭环学习 [11] 具身智能的第一性原理 - 核心问题是探究"身体"与"大脑"如何实现有机融合,而非简单将AI大模型适配到机器人 [17] - 真正具身智能需深刻理解身体形态、环境物理规律和任务目标 [18] - 动作规划本质是稀疏、第一人称的生成过程,与稠密、第三人称的视频生成存在本质区别 [20][21] 行业创新与商业化平衡 - 行业呈现爆发式发展,需要处理短期利益与长远目标的关系 [23] - 创新定力体现为放弃短期商业化诱惑,专注根本性科学问题探索 [24] - 生态繁荣需要不同角色贡献,初创团队选择确定性高场景是务实生存策略 [24]