世界模型

搜索文档
智元机器人罗剑岚老师专访!具身智能的数采、仿真、场景与工程化~
自动驾驶之心· 2025-08-02 00:03
具身智能数据讨论 - 公司与多家传感器供应商合作,重点研发视觉触觉与高密度传感器,并构建跨平台数据采集API以实现标准化数据输入[2] - 机器人应用需达到95%成功率才能满足家庭场景需求,当前性能优化是主要门槛[2] - 仿真数据用于模型迭代但大模型训练100%使用真机真实数据,仿真流水线在扩展性上存在瓶颈[2][3] - 合成数据仅用于工程迭代与模型调试,发布与部署阶段完全依赖真实场景数据[3][4] - 真实数据成本核心在于缺乏标准化机制,公司尝试通过远程摇操、自动部署机器人等方式建立自动化数据采集闭环[6] - 机器人数据瓶颈与自动驾驶不同,需解决数据稀缺、性能优化及工程伦理等多方面挑战[7] 具身大模型评估 - 行业缺乏通用benchmark,公司计划搭建统一真机测试场供不同模型评估[8][9] - 评估维度包括具身技术路线与性能表现,当前从Demo炫技转向产业闭环但仍面临工程复杂性等挑战[9] - 公司世界模型基于统一平台,能生成视频、评测模型并训练策略,处理复杂场景能力较强[10] - VLA路线需结合大模型与优化策略,机器人执行要求远高于ChatGPT的50%-60%准确率[11] - 中美差异:美国重算法创新与开源生态,中国在工程集成与规模部署上更具优势[12] 遥操作vs自主决策 - 自主决策需机器人理解世界、生成策略并执行任务,关键技术门槛在于多模态信息融合与高成功率[13][14] - 当前"失控"问题源于软件设计不完善而非机器人意识,公司通过模拟测试与安全机制确保安全[14] - 数据积累路径从垂直场景逐步过渡到通用场景,无法直接实现通用能力[15] 具身智能应用场景与落地 - 场景部署流程分为任务建模、场景迁移、场景适配与安全验证四步,强调软硬件协同与人机安全[17][18] - 工业结构化环境更易落地,需满足近乎100%的性能要求,家庭场景因复杂性长期市场更大[20][21] - 工业场景中VLA需结合大模型与优化策略,相比传统方案具备更强泛化能力与更低调试成本[23] - 人形机器人技术路线未收敛,公司同时依赖外部厂商与自研技术探索模块化标准[23] - 家庭环境异质性带来工程挑战,需通过垂直场景数据积累逐步演化通用能力[23] - 执行速度慢源于模仿学习局限,需引入专门优化训练而非仅模仿原始操作[24] 具身未来展望 - 追求DeepSeek moment即高成功率+泛化能力+速度的统一提升,而非ChatGPT式低成功率泛化[26] - 数据驱动成为科学范式,通过大规模数据与统计验证建立结论[27] - 未来架构可能超越Transformer,类脑架构更贴近生物大脑处理模型[28] - 传感器选择关键在"对的传感器"而非数量,方法论与算法架构更重要[28] 具身软硬件协同 - 公司构建平台化操作系统(类似"机器人Android")为硬件与传感器提供统一接口[30] - 行业需开放合作共建生态,单靠操作系统无法推动性能级模型创新[31][32]
ChatGPT见顶后,AI新战场世界模型:中国已经先行一步!
老徐抓AI趋势· 2025-07-31 09:03
前言 但现在,一个新的结论正在浮现:大语言模型的红利正在触顶,AI的下一个竞争焦点正在转向"世界模型"。 前几天,我在上海参加了世界人工智能大会,听了一场由商汤科技董事长兼CEO徐立带来的主题演讲《人工智能的十年演进》。 (放一张徐立的现场照片 过去两年,AI被以ChatGPT、Deepseek为代表的大语言模型(LLM)点燃。它们改变了我们的工作方式、学习方式,甚至改变了整个科技行业的竞争格 局。 这场演讲不仅系统回答了几个关键问题:为什么大语言模型的增长会遇到瓶颈?什么是世界模型?世界模型将如何重塑AI的未来? 更重要的是,它让我看到了AI与经济增长即将迎来加速期的巨大可能,中国也已提前布局,抢占先机。 我将用通俗的语言,帮你彻底读懂这场演讲。 AI的下一个竞争焦点 世界模型 重点内容速览 AI的前世今生 从"感知"到"生成" 徐立首先回顾了AI过去十年的演进。他把AI的发展划分为三个阶段,这个划分非常关键,因为只有理解了AI的来路,我们才能看清它的未来。 阶段一:感知AI 感知AI的标志性事件发生在2012年。杰弗里·辛顿(Geoffrey Hinton)团队在ImageNet大规模视觉识别挑战赛中,让 ...
端到端/大模型/世界模型秋招怎么准备?我们建了一个求职交流群...
自动驾驶之心· 2025-07-31 07:33
行业人才发展现状 - 学校学习内容与实际工作需求存在明显差距,导致应届生在求职时缺乏竞争力 [1] - 从业者转型需求强烈,方向包括大模型、世界模型、具身智能等前沿领域,但对行业实际动态了解不足 [1] 社群平台定位与功能 - 社群目标为搭建连接学校与企业的桥梁,整合全行业人才资源形成综合型平台 [1] - 社群内容聚焦产业动态、公司研究、产品研发及求职跳槽等实战话题 [1] - 提供行业人脉拓展渠道,帮助成员第一时间获取产业前沿信息 [1]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-30 08:02
具身智能领域最新研究进展 1 UniSim通用现实世界交互模拟器 - 通过生成式建模整合多源数据(图像/机器人/导航数据)实现高层级指令和低层级控制的视觉结果模拟 [3] - 应用场景覆盖游戏/电影内容生成和具身智能体纯模拟训练(零样本迁移至现实)[3] - 实验证明可同时训练视觉语言策略和强化学习策略 [3] 2 因果世界模型与鲁棒智能体 - 首次证实最优智能体必须学习真实因果模型以实现跨领域泛化 [5] - 研究结论对迁移学习和因果推断领域产生深远影响 [5] 3 MAMBA元强化学习框架 - 结合模型方法与元强化学习技术实现15倍样本效率提升 [8] - 在高维任务场景验证有效性,推动现实世界泛化能力突破 [8] 4 EMMA多模态具身智能体 - 通过文本世界LLM指导视觉世界VLM训练(DAgger-DPO算法)[10] - ALFWorld基准测试成功率提升20%-70% [10] 5 Text2Reward自动奖励生成 - 基于LLM生成可执行密集奖励代码(无需真实数据)[13] - 17项操作任务中13项超越专家编写奖励 [14] 6 在线持续学习智能体 - 提出Behavior-IL/Environment-IL框架解决现实场景持续学习问题 [17] - CAMA机制无需任务边界信息即实现参数更新 [18] 7 AMAGO情境强化学习 - 通过并行化Transformer训练解决长期记忆和元学习挑战 [21] - 可攻克开放世界多指令完成难题 [21] 8 LLM世界模型构建 - 创新性采用PDDL构建显式世界模型(支持40+动作生成)[22] - 在Household领域成功求解48项复杂规划任务 [23]
智元机器人首席科学家罗剑岚老师专访!具身智能的数采、仿真、场景与工程化
具身智能之心· 2025-07-30 08:02
具身智能数据讨论 - 公司与多家传感器供应商合作,聚焦视觉触觉与高密度传感器联合研发,并构建跨平台数据采集API实现任务语义统一映射[2] - 机器人应用需达到95%成功率才能满足家庭场景需求,当前性能优化是主要门槛[2] - 仿真数据用于高效迭代但存在扩展性瓶颈,多模态大模型训练100%使用真机真实数据[2][3] - 合成数据仅用于工程迭代与模型调试,大模型训练阶段完全依赖真实数据[3][4] - 真实数据成本核心在于缺乏标准化采集机制,公司正尝试远程遥操、自动部署机器人等方式建立自动化数据工厂[6] 自动驾驶与机器人数据对比 - 自动驾驶要求99.99%安全水平,机器人开放环境操作同样需要高成功率,当前面临数据稀缺与工程伦理双重挑战[7] 具身大模型评估 - 行业缺乏通用benchmark,公司计划搭建统一真机测试场推动标准化评估[8][9] - 评估维度聚焦技术路线与性能表现,从Demo炫技转向全栈一体化产业闭环[9] - 世界模型基于统一平台实现视频生成、模型评测与策略训练,复杂场景处理能力突出[10] 技术路线争议 - VLA路线非最终方案,需结合大模型与优化策略提升成功率至远超ChatGPT的50%-60%水平[11] - 中美差异:美国重算法开源,中国强在工程集成与产业化速度[12] 遥操作与自主决策 - 自主决策需突破多模态信息融合、任务泛化与高成功率执行三大门槛[13][14] - 当前"失控"问题源于软件设计缺陷而非意识觉醒,通过安全兜底机制保障运行[14] - 通用能力需从垂直场景积累数据逐步演化,无法直接实现[15] 应用场景落地 - 部署流程分任务建模、场景迁移、适配与安全验证四步,软硬件协同是关键[17][18] - 工业场景因结构化程度高更易落地,需满足100%性能与节拍一致性[20][21] - 工商业将先于家庭实现规模化落地,长期家庭市场潜力更大[21] 技术路线选择 - 关节驱动与感知能力依赖模块化标准,行业需共建可插拔生态[22] - 家庭环境复杂性需通过垂直场景数据积累逐步攻克[22] - 执行速度慢源于过度依赖模仿学习,需引入专门优化训练提升[23] 未来发展方向 - 追求DeepSeek moment:接近100%成功率+高速执行+泛化能力,超越ChatGPT moment[24] - 数据驱动成为科学正名,通过统计显著性验证建立结论[25] - Transformer架构主流但效率待提升,类脑架构或更适合具身智能[26] 软硬件协同生态 - 构建平台化操作系统(机器人Android)统一硬件接口,与软件厂商开放合作[28][29] - 操作系统是基础设施,真正突破依赖算法与模型创新[30]
对话智元具身业务部总裁姚卯青:下半年密集交卷,今年出货几千台
硬AI· 2025-07-29 23:50
具身智能行业发展阶段 - 行业正从Demo演示转向实战检验阶段 下半年将是"交卷"时刻 [1] - 头部公司需要通过营收和实际效果来证明能力 密集检验阶段即将开始 [2] 智元公司商业进展 - 2023年预计出货量达几千台 已中标中国移动7800万元订单 [2] - 产品应用于营业厅接待讲解等场景 未来将拓展至运营商/酒店/银行等服务领域 [2] - 商业模式选择软硬件全栈优化的"苹果"模式 而非开放接口的"安卓"模式 [2] 技术路线与数据策略 - 采用真实数据与世界模型双轮驱动技术路线 实采数据被视为核心资产 [2] - 合成数据难以完全涵盖物理规律 开放式场景与应用场景双渠道采集数据 [6][7] - 通过环境/光照/物体纹理等参数变化实现数据增广 已收到家电等专业化采集需求 [7] 世界模型技术 - 两条技术路线:泛VLA路线增加动作解码器 神经网络物理建模路线 [8] - Action-Conditioned World Model预测未来画面 World-Action Model生成连续动作指令 [8] 供应链与产能挑战 - 关节/减速器等核心部件供应链存在挑战 目前供应商以中小企业为主 [4] - 特斯拉引入国产供应链将推动行业发展 类似新能源车供应链建设过程 [16] 产品布局与市场策略 - 将推出"灵犀"产品线布局四足机器人 目标家庭陪伴/巡逻看护等场景 [13] - 四足机器人量产有助于关键零部件降本 供应链与人形机器人高度复用 [13] - 海外市场更关注工业领域降本应用 中国员工稳定性优于北美高缺勤率地区 [14] 商业化落地关键 - B端市场注重合理ROI而非绝对低成本 工业场景铺开将降低智造成本 [11] - 已实现1万次0失误的操作性能 通过人机共驾解决初期上线问题 [12] - 应用场景远超新能源车 每个细分市场都可能诞生专业公司 [2][10]
LeCun出手,造出视频世界模型,挑战英伟达COSMOS
机器之心· 2025-07-29 17:58
世界模型概念与发展 - 世界模型是一种神经网络,能够根据智能体过去的观察与动作预测环境的未来状态 [2] - 深度学习三巨头之一Yann LeCun将世界模型视为通向人类智能的核心路径 [3] - 训练有效世界模型面临数据获取成本高、任务复杂度高、算力消耗大等挑战 [4][5][6] DINO-world模型创新 - 采用冻结视觉编码器DINOv2在潜在空间预训练视频世界模型,显著降低计算成本 [9][19] - 模型参数量少于10亿,远低于生成式模型COSMOS的120亿参数规模 [19] - 引入残差预归一化交叉注意力块架构,提升预测效率 [20][21] 技术实现细节 - 使用旋转位置编码(RoPE)处理时空关系,支持可变帧率训练增强泛化能力 [23][24][28] - 通过动作条件微调模块将预测与智能体动作结合,缓解数据不足问题 [30][32][33] - 在6000万条未清洗网络视频数据集上训练,获得跨领域迁移能力 [11] 性能验证结果 - 在VSPW分割预测任务中,0.5秒预测mIoU提升6.3% [13] - 密集预测任务表现优于V-JEPA和COSMOS,Cityscapes mIoU达64.7 [37][38] - 直觉物理测试显示与V-JEPA ViT-H相当,验证大规模预训练价值 [40][41] 应用优势 - 解耦视频预训练与动作微调,减少90%标注数据需求 [12] - 潜在空间建模避免像素级计算,推理资源消耗降低80% [10][12] - 规划任务成功率比从头训练模型提高50%以上 [44]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-29 14:15
具身智能领域最新研究进展 通用现实世界交互模拟器 - UniSim通过整合多维度数据集(图像/机器人/导航数据)构建生成式交互模拟器,支持从高层级指令到低层级控制的视觉结果模拟,训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练,视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件,最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术,在基准测试中实现15倍样本效率提升,且无需超参数调优[8] - 成功验证高维任务场景有效性,推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练,采用DAgger-DPO算法实现跨模态模仿学习,在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码,在17项机器人操作任务中13项超越专家编写代码,运动任务成功率超94%[14] - 支持人类反馈迭代优化,仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架,CAMA机制无需任务边界信息,通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈,在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型,GPT-4生成含40余个动作的高质量PDDL模型,成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]
WAIC 2025观察:算力竞赛升维,模型寻路落地
经济观察报· 2025-07-28 21:36
行业趋势 - 2025年世界人工智能大会(WAIC)规模创纪录,展区超7万平方米,参展企业800余家,单日票价一度炒至3000元[2] - 行业呈现"一体两面"发展路径:硬件厂商聚焦算力性能提升,模型厂商转向商业场景落地[2] - 模型厂商集体转向产业"深水区",从参数比拼转向商业价值转化[1][14] 算力基础设施 - 华为展出昇腾384超节点,单集群算力达300PFLOPS(每秒30京次浮点运算)[4] - 芯鑫租赁累计向集成电路产业投放2100亿元,其中80亿元专项用于AI数据中心和算力租赁[4] - 神州数码发布业界首款鲲鹏技术路线大模型训推一体服务器KunTai R624 K2,计算效能提升2倍[6][7] - 曙光存储与中国移动联合落地国内首个全局统一文件存储系统,覆盖四大国家级枢纽节点[8] - 超云数字发布全栈液冷智算服务器R8429 L13,解决单机柜功率超20kW的散热问题[10] 模型与应用落地 - 商汤科技提出AI需通过"具身智能"与"世界模型"实现与现实世界交互进化[15] - 阶跃星辰发布Step 3模型,国产芯片推理效率达DeepSeek-R1的3倍,并联合10家芯片厂商成立"模芯生态创新联盟"[17] - 百望股份基于953.5万亿元交易数据构建"业务大脑",与阿里通义千问等合作推进开源模型+行业场景落地[18][19] - 数字王国发布"AI DOMAIN"影像创作平台,集成七大AI功能,联合成立"数字视觉创新联盟"[21] - 出门问问推出TicNote AI录音笔,内置"Shadow AI"实现记录、总结等复杂功能[23] 技术突破与创新 - 华为昇腾384超节点采用全对等UB总线和无阻塞Clos架构,实现384颗NPU与192颗鲲鹏CPU高效互联[4] - 曙光存储通过GDS技术实现数据直达GPU,将AI处理速度从每秒数百tokens提升至2000-3000[8] - 存算协同效益显著,存力投入1元可节约算力成本10元[9] - 神州数码产品兼容国内外主流AI加速卡,打破硬件兼容壁垒[7]
最近被公司通知不续签了。。。
自动驾驶之心· 2025-07-28 21:21
自动驾驶行业现状 - 行业整体盈利挑战巨大,头部公司如百度Apollo、小马智行的Robotaxi业务面临规模化运营成本高和法规限制问题,距离稳定盈利尚远 [3] - 乘用车主机厂如特斯拉、蔚小理的智能驾驶功能(FSD、NOP/NGP等)仍处于持续投入阶段,盈利主要依靠整车销售支撑 [3] - 特定场景如港口、矿区、园区物流AGV落地相对成熟,但市场规模有限且面临成本效益考验 [4] - 高级别自动驾驶(L4)系统综合成本在大多数应用场景下仍难以显著超越人力或传统方案的成本优势 [4] 技术发展趋势 - 端到端自动驾驶成为技术趋势,需要了解BEV Transformer、模仿学习、强化学习等技术在自动驾驶中的应用 [8] - 视觉大语言模型(VLM)在自动驾驶中的应用日益广泛,包括场景理解、轨迹预测和规划控制等方向 [31][32][34] - 世界模型技术快速发展,如HERMES、DrivingGPT等统一了驾驶世界建模和规划功能 [36][37] - 扩散模型在自动驾驶视频生成、场景合成等方面取得突破,如DriveDreamer、DrivingDiffusion等 [35][40] 人才市场情况 - 与前几年投资热潮相比,行业趋于冷静,L4级别岗位总量收缩明显,竞争加剧 [5] - 社招岗位数量减少,要求更高更务实,不仅需要扎实的工程能力和领域深度,还需具备量产/落地经验 [5][6] - 规划控制等传统岗位机会减少,建议转向新能源车企自动驾驶岗位或机器人、工业自动化等领域 [8] - 技术栈转型建议:C++开发者可考虑转向嵌入式或其他行业,如AGV、机械臂等工业自动化领域 [8] 技术社区资源 - 自动驾驶之心知识星球已聚集近4000人,包含100+行业专家和30+技术学习路线 [9][12] - 社区提供四大技术方向资源:视觉大语言模型、世界模型、扩散模型和端到端自动驾驶 [15] - 与多家自动驾驶公司建立岗位内推机制,简历可直达心仪公司 [11] - 社区每周活跃度国内前20,包含学术进展、量产应用、求职招聘等全方位内容 [70][74] 数据集与评估 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等,涵盖2D/3D目标检测、语义分割、目标跟踪等任务 [28] - 语言增强的自动驾驶数据集如NuScenes-QA、Talk2Car等支持视觉问答和自然语言导航等任务 [29] - VLM评估涵盖图像分类、图像文本检索、行为识别、目标检测、语义分割等多个维度 [23][24][25][26][27]