Workflow
21对话|商汤科技林达华:具身智能需数字空间与物理空间连接

AI技术演进趋势 - 大型语言模型(LLM)已从单一语言模型迈向多模态融合阶段,这是通向通用人工智能(AGI)的必经之路[2] - 2025年下半年或将迎来多模态模型的全面普及,国内厂商正加速布局[2] - 原生多模态架构如Gemini模型已实现图像、视频信息在预训练过程的深度融合,形成更深层次跨模态建模能力[6] 多模态技术发展 - 未来多模态需从理解层面延伸到思考层面,实现逻辑思维与形象思维的结合[6] - 经过融合训练的多模态模型在纯语言任务上表现可超越单一语言模型,商汤日日新6.0已取消单独语言模型[6] - 语言模型是通向AGI的切入点,但最终需具备多模态能力才能完成对世界的完整理解和建模[4][5] 具身智能发展 - 具身智能被视为AGI终极形态,商汤已发布"悟能"具身智能平台正式入局[3] - 当前多模态模型空间感知能力不足,成为具身智能落地的关键障碍[8][10] - 具身智能数据获取存在物理瓶颈,需借助互联网多模态数据构建基座模型弥补真机数据不足[10] Agent技术应用 - 2025年被视为Agent技术"元年",其发展与大模型能力提升密切相关[7] - 通用Agent在复杂场景中仍存在差距,需围绕具体场景迭代并结合行业知识[7] - Agent的可靠性和成功率是价值落地的核心指标,无效Agent会增加用户负担[7] AGI实现路径 - AGI需突破推理能力从狭窄领域向广泛生活生产场景的泛化[8] - 当前技术需解决多模态模型空间理解能力不足的问题,该能力对具身智能至关重要[8] - 智能需走出数字空间实现与物理世界的连接,这是AGI的关键特征[10]