日日新6.5

搜索文档
商汤林达华万字长文回答AGI:4层破壁,3大挑战
量子位· 2025-08-12 17:35
核心观点 - 多模态智能是当前AI发展的关键趋势,商汤科技通过"原生多模态"技术路线和"四次破壁"演进框架,推动通用人工智能(AGI)的发展 [1][2][4][6] - 商汤科技发布的日日新6.5模型实现了"图文交错思维"突破,标志着多模态推理能力的显著提升 [16][21] - 公司通过统一融合模型架构、优化数据生产体系和创新组织模式,在多模态领域保持领先优势 [12][25][40][41] 多模态智能的重要性 - 智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的,仅依赖文本数据的语言模型无法构建真正的AGI [7][8] - 多模态模型必须能够处理和理解图像、声音、视频等多种模态的信息,才能具备通用性 [8] - 商汤将多模态锚定为技术主轴,从日日新6.0开始只发布多模态模型,这在国内大模型厂商中独树一帜 [12] 技术路径选择 - 实现多模态模型主要有两种技术路径:适应训练(嫁接模式)和原生训练(融合模式) [11] - 商汤通过大规模对比实验确立了"原生多模态"技术路线,采用从预训练阶段就混合多种模态数据的融合模式 [10][11] - 实验证明,在合适的数据配比下,一个原生多模态融合模型在纯文本和图文任务上的表现都优于各自独立的专门模型 [23] 四次破壁演进框架 - 第一次破壁:Transformer实现长序列建模,为大语言模型奠定基础 [14] - 第二次破壁:语言与视觉会合形成多模态理解,模型学会跨模态关联 [15] - 第三次破壁:突破逻辑与形象思维边界,实现多模态推理,日日新6.5引入"图文交错思维链" [16] - 第四次破壁:突破与物理空间边界,实现与真实世界交互,即具身智能 [22][24] 数据体系构建 - 多模态训练最关键的数据是强关联的"图文对",商汤通过大规模自动化构造解决了稀缺问题 [26][27] - 建立"续训验证"机制确保数据质量,只有能带来性能增益的数据才会被准入 [28][29] - 采用"人写种子+自动扩展+强化学习"三段式方法获取高阶专业数据 [31][32][33][34] 模型架构优化 - 模型架构设计的核心是效率,而非单纯追求更大参数规模 [36] - 日日新6.5推动视觉编码器轻量化(参数量从60亿减至10亿),同时使MLLM主干网络更深更窄 [38] - 架构调整结合数据优化使模型效率提升超过3倍,实现比肩顶级模型的效费比 [38][39] 创新力源泉 - 计算机视觉起家的技术基因使公司对多模态价值有更早更深刻的理解 [40] - 重构研究组织实现资源统一调度,设立专项创新小组探索高风险高回报方向 [41] - 构建"基础设施-模型-应用"三位一体的正向循环,使技术理想与商业价值相互促进 [42][43]
WAIC人工智能大会观后感
2025-07-30 10:32
纪要涉及的行业和公司 - **行业**:人工智能、数据标注、硬件、游戏、机械臂打印、药物研发、AI应用、SaaS、ToC、ToB、大模型、视频生成、出海营销 - **公司**:面壁科技、奥鹏中国(Appen)、出门问问、阿里、腾讯、百度、金山办公、宝信、索成、威胜、鼎捷、光云、佳点科技、Triple、Vast、声网、晶泰科技、智谱公司、Minimax、商汤科技、接月星辰、Kimi、快手可灵、泰动科技 纪要提到的核心观点和论据 1. **AI产业趋势** - **Agent发展**:推理算力需求增加,Coding能力和工具调用能力成大模型评估核心,各大厂商积极开发相关应用[1][13] - **应用多元化**:端侧模型落地加速,如面壁科技在长安马自达车型应用;智能体多停留在框架搭建层面,需提升业务价值;数据标注行业增量来自企业和垂直行业赛道;硬件产品多样,如出门问问Take Note设备市场反响好[1][3] 2. **市场行情** - **乐观但缺新玩法**:从6月中开始路演对AI市场行情乐观,多数推介公司有正收益,高收益者达50%以上,预计GPT - 5支持该趋势[10] - **未达爆发节点**:2025年AI应用市场未爆发,多数公司收入增长十几个百分点,利润增长略快,有一到两亿AI相关收入;美国市场类似,应用SaaS公司以预期交易为主;选股难有显著个股阿尔法[18][19] 3. **公司动向** - **大型科技公司**:阿里、腾讯、百度积极布局AI应用,产品数量超预期,覆盖多品类,或影响A股计算机公司商业化[1][14] - **金山办公**:WPS AI升级至3.0版本,灵犀产品向Agent和自主智能体方向发展[1][15] - **鼎捷**:因台湾业务和NV产业链客户需求,预计2025年有两亿AI相关收入,受投资者青睐[20] 4. **未来展望** - **Agent类产品**:2026年Agent类产品收入预计增长,海外Coding和国内AI视频领域已显增长势头,国内市场可能达10亿人民币规模[21] - **市场投入**:当前市场对算力投入优先于应用,采取波段操作策略,预计延续至2026年[22] 其他重要但是可能被忽略的内容 1. **大会亮点** - **WAIC大会**:H1展馆展示大模型和大厂创新成果,百度和阿里展台瞩目;H4展馆聚焦初创公司,有新兴技术展示;端侧模型落地加速,智能体应用多但价值待提升;数据标注行业奥鹏中国转向企业客户;硬件产品多样[2][3] - **WIC大会**:机器人实物展示增多,但自主性有限,核心竞争点在“大脑”自主化处理能力[11][12] - **2025年Web大会**:大模型数量收敛,厂商聚焦应用层面,垂类Agent和视频生成是重点;出现更多核心高管,有资本引荐和招商引资需求[27] 2. **技术进展** - **国内大模型**:智谱公司发布GLM4.5智能体大模型并开源,长视频理解有突破;Minimax公司明确MOE技术路径,发布多个视频生成工具和通用智能agent[28][29] - **视频生成技术**:成本显著降低,10秒钟视频生成成本10元以内,分钟级短片生成和剪辑成本最高不超千元,快手可灵单秒视频生成成本低至五六毛钱[37] 3. **产品应用** - **声网开源项目TEN**:支持快速语音交互,用户可实时对话、打断交流并使用多语言[4] - **AI小镇**:游戏环境,利用戏剧AI技术,有二次元风格[6] - **白日梦游戏**:无限流剧本游戏,应用AR技术,无大语言模型但有趣味性[7] - **山东某公司机械臂打印技术**:可进行异形3D打印,制作奇特花瓶和模型[8] - **晶泰科技机器人实验室**:结合物理世界数据驱动与计算机仿真,为药物发现提供新方式[9] 4. **ToC和ToB市场** - **ToC市场**:由大型科技公司和创业公司主导,需持续性投入,商业化周期长但空间大[17] - **ToB市场**:由偏行业软件公司主导,为特定行业提供定制化AI解决方案[17] 5. **政策支持**:政府重视AI产业,上海及浦东新区提供模型补贴、算力券补贴等政策支持[23] 6. **中美创业生态**:中美两国人工智能创业生态活跃,新兴公司不断涌现,产业新陈代谢健康[24] 7. **工程化和产品化趋势**:大模型基础上进行工程化和产品化修饰,如可编辑性属性使生成图片、视频可二次修改,web大会展示端到端闭环进展[41]