通用智能
搜索文档
流形空间CEO武伟:当AI开始“理解世界”,世界模型崛起并重塑智能边界|「锦秋会」分享
锦秋集· 2025-11-05 22:01
世界模型的核心概念与定义 - 世界模型是AI智能的下一个基础范式,其目标不是生成内容,而是在智能体内部模拟世界的运行规律[9] - 世界模型是一种可以模拟所有场景的生成式模型,被理解为"the online simulator in our brain",即能够在线进行模拟的智能体模型[15] - 技术上,世界模型通过隐式建模学习并近似环境的状态转移概率分布,从而在仿真空间中进行预测与推演[16] - 与传统AIGC不同,世界模型的目标不是"还原现实",而是通过预测环境变化来做出更优决策[9] 世界模型的技术价值与应用方向 - 世界模型让AI第一次具备"心智推演"能力,能在脑中模拟因果、预判后果、优化行动[9] - 主要应用方向包括构建Agent Model和环境模型两大范式[18][22] - 作为Agent Model时,通过在线模拟和推演获得更好决策,替代依赖经验回放的模仿学习方式[18] - 作为环境模型时,通过离线强化学习获得更好泛化能力,成为通用的Omni Simulator[22] - 为自动驾驶、无人机、具身智能等领域奠定通用智能底座,实现从"经验学习"到"因果理解"的跨越[9] 行业技术路线与发展历程 - 世界模型方向最早可追溯到2018年论文《World Models》,提出Mental Model概念并通过RNN对世界状态进行建模[24] - 2024年OpenAI的Sora出现后形成首个具备文生视频能力的结构化模型,AIGC技术与视觉世界模型开始深度融合[24] - Google的Genie系列基于海量视频数据进行scaling up,训练具有三维空间一致性的视频生成模型,以自回归技术路线为主干[27][28] - Google的Dreamer系列核心思想与AlphaGo一脉相承,在模型构造的虚拟环境中让智能体进行强化学习,经过三代迭代实现跨游戏环境泛化[43][44][52] - Meta的V-JEPA技术路线引入新思路,通过sampling与能量函数评估方式搜索最优执行状态,提供更可解释、更物理一致的智能体建模方式[55][56][57] 流形空间的技术布局与成果 - 公司提出"全域世界模型"体系,已在自动驾驶、机器人、无人机等方向实现突破[9] - 2025年CVPR上发表DriveScape自动驾驶世界模型,比特斯拉Autopilot自动驾驶世界模型发布更早[75] - 2025年NeurIPS上发布RoboScape,是首个针对具身智能的物理可控世界模型,能通过单帧图像+语言指令执行物理动作,支持刚体与柔性物体交互[78] - 2025年ACM MM上推出全球首个无人机世界模型AirScape,通过显式世界建模实现空间与视角统一控制[81] - 所有模型基于自研LongScape基础架构,结合Auto-regressive + DiT混合建模方式,整体研发进度超前于特斯拉世界模型团队[83] - 已将模型量化蒸馏部署到边缘端推理系统,驱动机器人实现自主移动以及无人机实现自主导航[84] 当前挑战与未来发展方向 - 现有模型如Cosmos、Genie、WorldLabs在多模态感知、指令遵循、物理世界建模等方面仍有不足,任务适应性不够强[66] - 具身智能体面临跨尺度空间挑战,自动驾驶汽车、室内操作机器人、低空无人机等不同尺度下的泛化能力仍然较弱[67] - 未来提升主要集中在五个方面:需要更丰富的多模态数据、更强的表征学习能力、新的原生世界模型基模架构、转向任务执行能力的训练目标、以及任务泛化与跨环境自适应能力[69][70][71][72][73]
DeepMind一篇论文终结十年之争,GPT-5推理靠世界模型
36氪· 2025-10-31 16:22
GPT-5的推理能力突破 - GPT-5展现出惊艳的推理能力,逻辑水平堪比专家,网友评价如同与博士讨论问题[1] - 其核心突破不在于参数规模扩大,而在于智能体内部形成了“世界模型”[1] - 这种推理能力表现为多步逻辑处理能力,如解数学习题和规划流程[5] 世界模型的理论基础 - 世界模型是AI脑中的预测地图,能够对事件发展进行预测(如球桌边缘滚动→掉落预测)[3][4] - 学术框架中存在目标、策略、世界模型的三角推导关系:已知世界模型和目标可推导最优策略,已知策略和世界模型可反推目标[7] - 最新研究补齐三角关系最后一角:通过智能体策略和目标可恢复其世界模型,证明世界模型是通用智能的必要条件[9] 世界模型的实验验证 - 研究人员搭建虚拟迷你世界(含X/Y状态概率跳转)验证世界模型存在性[10][11] - 实验数据显示任务复杂度与模型精度正相关:任务越复杂,世界模型误差迅速下降[12][14] - 在复合目标实验(需状态间来回跳转)中,世界模型仍能被稳定恢复[15] 世界模型的技术意义 - 世界模型解释了“涌现能力”现象:非魔法而是模型清晰化的自然结果[17] - 模型为破解AI黑箱提供新途径,未来可能通过抽取世界模型解释AI行为[17] - 智能体强度与模型精度正相关,GPT-5的推理能力提升直接源于世界模型优化[16] 行业影响与未来展望 - 世界模型既是通向通用智能的通行证,也可能因模型与人类认知差异成为不确定性源头[17] - 该突破改变对AI能力的理解范式,从数据模仿转向内在认知构建[4][9] - 研究成果为AI安全性研究提供理论支撑,使模型可解释性具备实现基础[17]
零一万物官宣三位高管新任命;前天猫精灵总裁彭超创业,想从运动AI硬件实现通用智能丨AIGC日报
创业邦· 2025-10-28 08:10
零一万物高管任命 - 公司宣布联合创始人沈鹏飞统筹国内ToB及ToG业务拓展与销售体系 [2] - 赵斌强晋升副总裁并聚焦模型平台技术与专业产品体系建设 [2] - 宁宁晋升副总裁并负责国际业务拓展与AI咨询落地 [2] 云玦科技创业动态 - 前天猫精灵总裁彭超创立云玦科技 首款产品为运动可穿戴硬件设备结合Agent智能体 [2] - 公司项目于10月中旬启动 核心思路是让AI在5000立方米运动空间内实现跟踪、规划、分析、执行及自进化能力 [2] - 硬件形态不限于单一产品 而是一套产品组合 目标是从运动场景迁移至更多物理空间实现通用智能 [2] 苹果地图业务拓展 - 苹果计划在Apple地图中整合广告功能 允许企业付费置顶搜索查询结果 [3] - 该功能最早可能在明年上线 广告界面设计将优于谷歌等竞争对手 [3] - 公司将利用AI技术保持搜索结果的实用性与相关性 [3] 火山引擎视频生成模型升级 - 火山引擎正式上线豆包视频生成模型1.0 pro fast 生成速度最高提升约3倍 [4] - 新模型价格直降72% 在继承Seedance 1.0 pro核心优势基础上实现效率突破 [4]
前天猫精灵总裁彭超创业,想从运动AI硬件实现通用智能丨36氪独家
36氪· 2025-10-27 18:17
以下文章来源于智能涌现 ,作者邱晓芬 彭超曾 在华为印度、阿里任消费硬件业务1号位;联合创始人齐炜祯为Multi-token架构开创学者,被Deepseek、Qwen引入预训练方法 。 文 | 邱晓芬 编辑 | 苏建勋 来源| 智能涌现(ID:AIEmergence) 封面来源 | 视觉中国 "智能涌现"独家获悉,前阿里巴巴集团副总裁、天猫精灵总裁彭超已于近期创业。新公司名为"云玦科技",首款产品是运动可穿戴硬件设备+Agent智能体。 "云玦科技"项目于10月中旬启动,知情人士对"智能涌现"称,彭超相信消费级智能体和通用智能可能采用一套训练架构,核心思路是—— 让AI扮演好跟 踪、规划、分析、执行的角色,配合硬件设备,让智能体有自进化的能力, 陪伴消费者在高速、高频运动的5000立方米空间里进阶。再进化迁移到更多物 理空间。 至于具体的硬件形态,据"智能涌现"了解,"云玦科技"还在设计之中,但 "不只是一款产品,而是一套产品组合。" 智能涌现 . 直击AI新时代下涌现的产业革命。36氪旗下账号。 在团队搭建方面,"云玦科技"的另一位联合创始人是齐炜祯,此前为中关村人工智能研究院大模型博士培养方向的导师。 据 ...
天猫精灵前总裁彭超再创业,瞄准运动可穿戴与智能体融合|融资首发
钛媒体APP· 2025-10-27 17:00
天猫精灵前总裁彭超 前阿里巴巴集团副总裁、天猫精灵总裁彭超再次出发。新公司名为云玦科技,首款产品将聚焦"运动可 穿戴硬件设备 + Agent智能体"的融合形态。 彭超是中国智能硬件领域的老兵,拥有超过14年的产品经验。2021年加入阿里巴巴后,他主导将达摩院 大模型引入天猫精灵,并牵头组建集团一级业务公司智能互联事业群,让AI真正走向家庭与终端用 户。在此之前,他曾先后担任华为荣耀终端有限公司高管、华为消费者业务印度地区部总裁。在负责荣 耀手机全球电商业务期间,他带领团队实现了全球线上份额第一;而在印度任职期间,他组建了华为海 外唯一一个集"产品定义—研发—制造—销售"于一体的国家级区域公司,探索了完整的出海商业闭环。 与彭超联合创业的,是来自人工智能学术界的代表人物齐炜祯。他曾任中关村人工智能研究院大模型博 士培养方向导师,拥有微软与中国科学技术大学联合培养博士背景。研究方向聚焦自然语言生成与预训 练模型,在NLP顶会发表论文十余篇,总引用次数超过2300次。他主导研发的ProphetNet及BANG模型 已成功部署于必应广告推荐系统多个国家市场,显著提升了广告营收,并被京东研究院、三星研究院等 采用。 早 ...
LeCun怒揭机器人最大骗局,坦白Llama与我无瓜
36氪· 2025-10-26 17:22
人形机器人行业现状与挑战 - 行业面临从特定任务训练到通用智能的鸿沟,家用机器人实现叠衣服、倒水等任务仍需AI领域取得一系列突破[1] - 行业秘密在于公司尚不知晓如何让机器人变得足够聪明以达到实用级别[21] - 人形机器人拥有40个自由度,可能产生的位姿组合数量超过宇宙原子总数,该问题无法通过编程解决,唯一途径是神经网络[25] 技术路径分歧:世界模型与LLM - Meta首席AI科学家Yann LeCun认为突破核心在于打造可规划的世界模型架构,以学习理解和预测物理世界系统[1] - LeCun指出大语言模型是一条死胡同,仅靠文本训练无法实现人类水平智能,智能源于视觉、听觉、触觉等多模态经验[15] - 四岁儿童通过视觉接收的数据量已相当于所有公开文本训练的最大规模LLM的数据量[15] - LeCun预测未来3-5年内,世界模型会成为AI架构的主流模型,届时头脑清醒的人都不会再用生成式LLM的路子[20] 主要公司动态与战略 - **特斯拉**:公司内部对于如何快速实现通用人形机器人已有非常明确的思路[1];正建设年产百万台Optimus机器人的生产线,目标2026年初推出具备量产意向的V3原型机[26];其神经世界模拟器能够基于当前状态与后续动作直接合成未来状态,该架构将无缝迁移至Optimus机器人[28][31] - **Figure AI**:公司CEO宣称明年就能实现通过语音指令让人形机器人在陌生环境完成各类通用工作[23];强调其机器人所有操作都由神经网络驱动,否认某些公开演示仅为戏剧表演或预设程序[25] - **1X Technologies**:公司发布自研世界模型,该模型允许从相同初始条件出发并行部署不同策略进行直接对比[35][37];公司CEO坦言让机器人进入家庭存在理想与现实的落差,现实环境复杂得离谱[37] 世界模型技术架构 - 世界模型定义为给到时刻t的世界状态及智能体可能动作,以预测动作执行后的环境[16] - 系统配备世界模型后可进行规划,设想连续动作并预测结果,结合代价函数评估任务完成情况,运用优化方法搜索最优动作序列[18] - 环境动力学模型完全通过自监督学习,机器人无需针对特定任务反复训练,能从模拟数据或真实操作中学习动作-结果关系,零样本完成新任务[18][19] - 1X世界模型包含视觉编码器、动作编码器、核心网络及视频与状态价值解码器,通过对成功标签进行监督学习生成的状态价值预测可量化评估输入动作质量[35]
从被吹捧到沦为鸡肋,“AI”这个词用了还不到一年
36氪· 2025-10-17 19:56
文章核心观点 - 当前AI行业的发展状况与历史上两次AI寒冬前的情景高度相似,存在技术泡沫、市场脱节及商业模型不可持续等问题,第三次AI寒冬可能正在来临 [1][4][6][7] 历史上的AI寒冬 - 第一次AI寒冬发生在1974-1980年,因计算机内存和处理能力有限,难以处理复杂实际问题,且早期AI系统无法有效利用人类常识和领域知识,导致政府大幅削减资金支持,AI研究陷入低谷 [2] - 第二次AI寒冬发生在1987-1993年,以专家系统为代表的AI因知识库有限、维护成本高且无法自动学习而失去商业价值,同时昂贵的专用AI硬件市场被性价比更高的台式计算机取代,导致AI硬件市场崩溃和投资撤离 [3] 当前AI行业面临的挑战 - 大模型训练成本高昂,存在严重幻觉问题,难以在企业垂直场景中落地应用,投入产出比极低 [5] - 许多AI产品开发脱离用户真实需求,功能与实际需求脱节,导致产品无人使用或被迅速淘汰 [5] - 企业数字化基础薄弱、业务流程不规范、数据孤岛严重等问题,阻碍了AI技术的有效落地 [6] - 资本市场缺乏耐心,一旦AI项目回报周期拉长便迅速撤资,转向其他风口 [6] 潜在第三次AI寒冬的成因 - 技术能力与社会预期之间存在巨大鸿沟,对通用智能概念盲目乐观 [4] - AI产品与现实市场需求脱节,缺乏可持续的商业发展模式和核心技术壁垒 [6] - AI公司普遍无法提供端到端的一体化解决方案,仅能提供单一功能模块 [6] - 企业和资本急于看到立竿见影的回报,不愿为AI技术的长期演进买单 [7]
人形机器人商业化落地可期
证券时报网· 2025-10-15 09:23
上海市产业政策支持 - 上海市经信委印发行动方案 提出强化机器人终端能力 打造能听会道、有情商、有智商、有技能的人形机器人产品 [1] - 方案支持人形机器人产品研发和量产制造 推进端侧芯片、灵巧手、电池等核心零部件加快产业化突破 [1] 行业发展态势与催化 - 近期国内外产业端迎来密集催化 产业潮起入局者明显增多 国内多数企业纷纷加码具身智能 [1] - 海外特斯拉、Figure AI等加速商业化量产步伐 人形机器人产业链进入"百花齐放,百家争鸣"阶段 [1] - 人形机器人进入工业场景已成为国内外确定性较高的应用趋势 人形机器人商业化落地可期 [1] 产品技术进展 - Figure AI发布Figure03 可自主处理洗衣、打扫和洗碗等家务 主要变化是感知系统和灵巧手升级 [2] - Figure03搭载新一代视觉系统 手部嵌入小型相机、指尖集成触觉传感器 [2] - 大规模制造上 Figure AI自研执行器、电池、传感器等 制造抛弃CNC加工 转向模具/注塑/冲压等工艺 [2] 商业化前景与产能规划 - Figure03在具身智能大模型加持下 将会是可商用化落地的人形先锋军 [2] - Figure AI的BotQ基地产能规划为第一代1.2万台/年 未来4年生产10万台 [2] - 2026年人形产业有望正式进入商用化 [2] - DeepSeek等人工智能公司推动通用机器人大模型发展 助力人形机器人实现具身智能 [1]
机构:人形机器人商业化落地可期
证券时报网· 2025-10-15 08:22
上海市产业政策 - 上海市印发行动方案 提出强化机器人终端能力 打造能听会道、有情商、有智商、有技能的人形机器人产品 [1] - 支持人形机器人产品研发和量产制造 推进端侧芯片、灵巧手、电池等核心零部件加快产业化突破 [1] 行业趋势与催化剂 - 近期国内外产业端迎来密集催化 产业潮起入局者明显增多 国内多数企业纷纷加码具身智能 [1] - 海外特斯拉、Figure AI等加速商业化量产步伐 [1] - DeepSeek等人工智能公司推动通用机器人大模型发展 助力人形机器人实现具身智能 [1] - 人形机器人产业链进入"百花齐放,百家争鸣"阶段 [1] 商业化应用前景 - 目前人形机器人进入工业场景 已成为国内外确定性较高的应用趋势 人形机器人商业化落地可期 [1] - Figure03在具身智能大模型加持下 将会是可商用化落地的人形先锋军 [2] - 2026年人形产业有望正式进入商用化 [2] 技术进展与产品迭代 - FigureAI发布Figure03 可自主处理洗衣、打扫和洗碗等家务 [2] - Figure03主要变化是感知系统和灵巧手升级 搭载新一代视觉系统 手部嵌入小型相机、指尖集成触觉传感器 [2] - 大规模制造上 公司自研执行器、电池、传感器等 制造抛弃CNC加工 转向模具/注塑/冲压等工艺 [2] 产能规划 - Figure AI的BotQ基地产能为第一代1.2万台/年 未来4年计划生产10万台 [2]
史上最全robot manioulation综述,多达1200篇!西交,港科,北大等八家机构联合发布
具身智能之心· 2025-10-14 11:50
文章核心观点 - 具身智能是人工智能迈向通用智能的关键前沿,其核心在于机器人操作技术,该技术正经历从基于规则到融合大语言模型和多模态模型的范式转变 [3][4] - 一篇由多机构学者联合撰写的综述论文系统性地梳理了机器人操作领域,提出了统一的理解框架,涵盖硬件基础、任务数据、控制框架及泛化研究,旨在推动机器人从“执行任务”到“理解与学习任务”的演进 [4][6][7] 机器人操作领域综述概览 - 该综述使用17张图、15张表格和超1000篇参考文献,构建了机器人操作的全景图谱,内容覆盖硬件与控制基础、任务与数据体系、高低层控制框架及跨本体与跨模态的泛化研究 [4][6] - 论文扩展了传统的“高层规划—低层控制”框架,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制则提出基于训练范式的新分类法,包含输入建模、潜表征学习和策略学习三个核心部分 [6][9][13] 机器人硬件与控制范式演进 - 机器人硬件从机械手、机械臂发展到移动机器人平台,控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习) [14] - 机器人模型的分类方式及其验证流程构成了评估体系,反映了领域技术栈的成熟度 [14] 仿真器、基准与数据集 - 综述整理了多个主流仿真器与基准,例如MetaWorld(80物体、50任务)、CALVIN(40M演示数据)、Maniskill2(2144物体、20任务)等,覆盖从基础操作到灵巧操作、移动操作等多种任务类型 [15][18] - 数据集类型包括抓取数据集、单/跨具身仿真器基准、轨迹数据集及具身问答数据集,支持多样化的机器人操作研究与验证 [17] 高层规划与低层控制框架 - 高层规划被扩展至语言、代码、运动、可供性和3D表示,凸显其在语义决策中的作用,例如通过大语言模型生成任务计划或代码 [21][24] - 低层学习控制提出三层结构分类法:输入建模(处理输入数据)、潜表征学习(构建可迁移表示)、策略学习(生成精准动作),为控制策略研究提供系统化视角 [22][23] 机器人操作核心瓶颈 - 领域面临两大瓶颈:数据采集与利用(涉及人类示教、合成数据生成、众包收集等途径)以及系统泛化能力(包括环境、任务和跨具身泛化) [27][28] - 数据利用方法涵盖数据扩展、选择重加权、检索与增强技术,而泛化挑战的解决方案旨在提升机器人对未知场景的适应能力 [27][28] 未来研究方向 - 未来重点方向包括构建通用“机器人脑”实现认知与控制、突破数据瓶颈以 scalable 生成利用数据、强化多模态感知提升复杂物体交互、确保人机共存安全推动真实世界应用 [32][34]