文章核心观点 - 通往AGI的终极路径是具身智能,其目标是让大模型进入物理世界,成为可用、可落地、可持续演化的智能体[1] - 具身智能并非AI的新分支,而是各类AI技术在现实世界中的统一落地点[6] - 实现具身智能需要从纯粹的算法研究转向与硬件、数据和真实场景不确定性正面交锋的全流程定义与开发[2][21] 从DeepMind到投身具身智能 - 嘉宾王佳楠的职业路径从牛津大学到DeepMind,再回国加入IDEA研究院进行生成式AI研究,最终于2024年加入星尘智能,投身于大模型与机器人结合的具身智能领域[1][7][18] - 在DeepMind期间,其研究方向是追求通用的强化学习框架,并亲历了AlphaStar等标志性项目的诞生[1][12] - 从DeepMind到创业公司的转变,本质是从“定义好问题”的纯算法研究,转向需要“定义问题本身”的解决真实世界问题的过程[6][14] 对具身智能的认知与信念 - 对嘉宾而言,AGI的终极形态就是智能机器人,这是其投身该赛道的根本信念[8][9] - 机器人是当前AI技术的一个重要终端平台,CV、NLP、大模型等领域的从业者都在此汇聚,以实现开放环境中与人交互的智能机器人目标[7] - 机器人研发涉及复杂的软硬耦合,与纯粹的AI开发逻辑完全不同,开发者需从“解题者”转变为“全流程定义者”[21] 技术架构:快慢系统(大小脑) - “快慢系统”(或称大小脑、System 1/System 2)是具身智能的核心系统观,其核心在于区分决策深度[6][25] - 快系统(小脑)负责无需语言中介、由直觉驱动的基础运动能力,其核心任务是通过海量动作片段数据预训练,构建机器人的“动作基元库”[28][29] - 慢系统(大脑)作为指挥官,通过高层指令精准调用快系统的原子技能,实现从“意图”到“执行”的闭环[29] - 该架构是一种功能定义,既可通过单一模型切换实现,也可通过多模型协作完成,并具备高度可扩展性[25] 关键瓶颈与解决方案探索 - 数据是当前最硬的瓶颈,高质量的真机数据不可替代[6][33] - 解决数据瓶颈的探索包括:1)数据增强:在仿真中对真实采集的数据进行背景、光照等调整以扩充数据量;2)纯仿真生成:适用于交互不复杂的任务;3)互联网数据积累:用于解决上层语义理解和长时序任务规划等痛点[34][35] - 在模型架构上,常见方案包括使用单一Transformer的VLM框架,或外接世界模型(如DiT)提供预测提示,系统需要开放地接受不同形式的提示[31][32] - 让机器人理解人类非预设的复杂需求,核心在于意图表达的颗粒度,需结合“语言指令+多模态提示”(如勾勒运动轨迹、设定空间约束)[31] 对世界模型与VLA的看法 - 世界模型是一个有潜力的方向,但不需要等待其完美,能提供预测与提示价值即可,其本身并非银弹[6][38] - 如果已经能完美仿真一个问题所处的环境,那么该问题其实已经解决,这是一个哲学上的循环问题[38] - VLA是通往通用机器人的关键一步和重要里程碑,它为机器人配备了通用能力,但下游应用仍需要特定的设计或改动[6][41] 通用机器人的发展路径与时间表 - 通用机器人“走到人身边”可能只需2到3年,但实现完全自主还需要长期演化[6][43] - 更现实的路径是“可用先行、人类接管、逐步升级”,类似自动驾驶的发展节奏[6][43] - 若目标是在定义好的大量任务上达到高正确率,主要是一个数据和模型训练问题,若有足够快的数据采集和行业共创,3到5年可能积累覆盖日常各种场景的完整数据[44][45] 公司实践与发展现状 - 星尘智能团队具备多元化的行业长期积累,并通过紧密的多团队协作与创业精神实现了产品的快速发展[19] - 公司在数据方面进行了大量优化,并采用仿真进行数据增强,同时与MIT等高校合作探索多模态数据应用[33][47] - 公司目前处于“打磨”和推向科研、高校合作伙伴的阶段,门槛已有所降低,但商业化落地(让客户能自主验证和二次开发)是下一步关键挑战,整体进度估计在50%左右[50][51] 未来关键方向与行业建议 - 未来关键探索方向包括:1)人机交互:定义机器人理解意图、沟通及发出求助信号的交互方式;2)多模态数据:收集和应用触觉、力觉等更多模态数据以提升模型能力[47] - 具身智能是一条漫长但值得坚持的道路,需要开发者具备信念感和耐心[55] - 行业需要共创共赢的心态,集合个人、公司、社区的力量共同积累与反馈,以推进边界[6][55]
从 DeepMind 到投身具身智能,王佳楠:算法最终还是要服务真实世界|万有引力
AI科技大本营·2026-01-23 18:09