Workflow
世界模型
icon
搜索文档
智元机器人首席科学家罗剑岚:如果机器人实现“操控”,是比大语言模型更高级的智能
每日经济新闻· 2025-04-02 15:35
公司合作与技术发展 - 智元机器人与Physical Intelligence(Pi)达成合作伙伴关系,将在具身智能领域展开深度技术合作,重点关注动态环境下的长周期复杂任务 [1] - 罗剑岚加入智元机器人并全面领导具身智能研究中心,同时推进双方深度合作 [1] 机器人自主决策与智能等级 - 遥控与自主决策的核心差别在于机器人需具备感知、预测、行为生成的泛化能力,并建立Internal Model(世界模型)以预测未来和执行动作链 [1] - 机器人实现Manipulation(操控)的智能等级为7至8,远高于大语言模型(LLM)的3级 [1] 关键技术路径 - 强化学习和DeepSeek R1的推理能力是关键技术,但模仿学习不足,需结合世界模型预测环境变化 [1] - 核心挑战在于构建开放数据链的鲁棒策略,以及感知、预测、行为生成机制的泛化能力 [1] 数据收集与场景部署 - 人形机器人缺乏大规模应用场景数据,需通过部署产生数据循环(如1000台机器人在星巴克工作可快速积累数据) [1] - 机器人部署难度低于智能驾驶,可从封闭或半封闭空间开始,逐步生成数据 [1]
电动汽车百人会(2025)|博世吴永桥:中阶智驾将是标配,座舱才是车企主战场
中国经济网· 2025-03-31 10:40
中阶智驾技术发展趋势 - 中阶智驾未来将成为汽车标配,类似安全带和安全气囊 [1] - 比亚迪在2025年2月已发布标配中阶智驾的天神之眼系统,算力达80-150TOPS,并应用于8万-15万元车型 [3] - 预测三年内8万-15万元车辆将标配80-150TOPS的中阶智驾 [3] 主机厂研发策略转变 - 中阶智驾成为标配后,主机厂无需投入巨大人力物力进行全栈自研 [1] - 主机厂全栈自研需至少三年时间打通数据闭环和工具链,消耗大量基建、人力和时间 [3] - 主机厂投入1000-2000人团队可能仅支持10个车型,整体性价比不高 [3] 供应链角色与市场格局 - 中阶智驾应由以博世、元戎启行、华为和momenta为代表的Tier1供应商提供 [3] - Tier1供应商可以支持7-8个客户、几十款甚至50-100个车型 [3] - 未来的L3级、L4级自动驾驶及AI大模型等标配零部件可交给供应链处理 [4] 高阶智驾与主机厂竞争焦点 - 预测三年后高阶智驾将逐步普及,在15万元以上车型中标配全领域领航功能 [3] - 主机厂应关注高阶智驾供应链无法满足的领域,如用户体验和售后服务 [4] - 座舱被视为车企差异化竞争的主战场 [1] 行业投入与成本分析 - 中阶智驾的数据闭环和工具链每年需投入数亿甚至数十亿元 [3] - 博世去年在智驾领域投入接近20亿元 [3]
中国银河证券:推理算力重要性提升 光模块等算力细分赛道发展再加速
智通财经· 2025-03-24 16:58
文章核心观点 中国银河证券认为英伟达GTC 2025大会后硬件发展带动软件及大模型高景气,推理应用发展刺激算力需求,算力相关板块有较大投资价值,建议关注运营商、光模块、光芯片及AIDC相关等细分子板块 [1][4] 推理算力增长情况 - 英伟达CEO称通往AGI、具身智能机器人、构建Omniverse与世界模型及虚拟“平行宇宙”均需算力,2024 - 2025年美国前四云厂采购GPU芯片数量成倍数增长 [1] - Semianalysis数据显示如今模型处理token数量是之前20倍,计算量是150倍,Blackwell性能比Hopper提高68倍,成本降87%,Rubin计划性能提升至Hopper 900倍,成本降99.97% [2] 英伟达软硬件发展情况 硬件方面 - 发布基于Blackwell架构的升级版Blackwell Ultra,强调推理端重大进展,可为数据中心提供50倍增收机会 [3] - 明确26 - 27年及更远期发展规划,硬件性能加速提升 [3] - 展示基于1.6T硅光引擎的CPO交换机系列,硬件端性能将持续高质量全方位提升 [3] 软件方面 - 发布专注简化推理部署和扩展的开放AI引擎栈Nvidia Dynamo,或开创推理软硬件效率新范式 [3] - 发布Nvidia Llama Nemotron,望以其推理模型为基础,通过NVIDIA AIQ架构探索相关方向形成生态闭环 [3] 投资建议 - 推理应用发展刺激算力需求,当前市场认为推理应用增长挤压算力板块成长空间的判断或偏离实际 [4] - 建议关注运营商如中国移动、中国联通、中国电信等;光模块如中际旭创、新易国盛等;光芯片如源杰科技、仕佳光子等;AIDC相关如光环新网、数据港等 [4]
杨立昆“砸场”英伟达:不太认同黄仁勋,目前大模型的推理方式根本是错的,token 不是表示物理世界的正确方式|GTC 2025
AI科技大本营· 2025-03-21 14:35
英伟达GTC 2025大会核心观点 - 杨立昆从视觉派角度否定当前主流语言派AI技术路线 认为token不是表示物理世界的正确方式 [8][9] - 杨立昆提出联合嵌入预测架构(JEPA)作为替代方案 强调需要在抽象表示空间而非像素层面进行预测 [14][15] - 杨立昆预测高级机器智能(AMI)可能在十年内实现 但当前大模型扩展路线是错误的 [19][20] AI技术发展方向 - 当前大语言模型已进入产业优化阶段 未来重点应转向机器理解物理世界、持久记忆、推理规划四大方向 [10][11][12] - 世界模型概念被提出 认为人类通过内部物理世界模型处理现实 未来AI需要完全不同架构 [13] - 系统1(快思考)与系统2(慢思考)的区别被强调 当前大模型仅实现系统1水平 [36][37] 硬件与计算技术 - 神经形态硬件和光学计算近期难有突破 量子计算应用前景受质疑 [39][43] - 内存计算技术在边缘设备如智能眼镜上有应用潜力 [40][41] - 视网膜处理机制被作为高效感知系统的生物参考 [43] 开源与创新生态 - Llama系列模型下载量超10亿次 开源模式推动行业创新 [30] - 全球分布式训练开源基础模型被认为是未来趋势 [32] - 中国科学家贡献被肯定 DeepSeek和ResNet案例显示创新可来自任何地方 [8][27] AI应用前景 - AI在医疗影像、自动驾驶等感知领域已产生实际价值 [20] - 科学研究和药物设计是AI最具潜力的应用方向 [20] - AI助手多样化发展需要开源平台支持 未来人机关系将转向管理者-虚拟员工模式 [32][58] 技术挑战与突破 - 残差连接等工程技巧对深度学习发展至关重要 [51] - 为JEPA架构寻找有效"配方"是当前主要挑战 [56] - 视频预测任务显示联合嵌入架构相比重建方法更具优势 [45]
范式集团创始人戴文渊:以“Agent +世界模型”赋能更多产业,加速通向AGI
IPO早知道· 2025-03-18 13:55
范式集团未来将剑指更多业务领域。 本文为IPO早知道原创 作者|Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,在3月18日举行的范式集团发布会上,范式集团创始人戴文渊发布全新的集团 Logo,并分享了范式集团的 AGI 愿景与实现路径。 戴文渊强调:"范式集团未来将用'AI Agent+世界模型'的技术路径去赋能更多的产业,最终将大量 垂直的智能能力汇聚成为 AGI。" 因此, 通往 AGI 的路,就是不断提升 AI Agent 沟通能力,和不断丰富世界模型对各垂直细分领域 的认知,提升 AI 解决垂直领域的能力。 需要强调的一点是,我们所认为的世界模型和很多学者正在做的世界模型不同。当前绝大多数的世界 模型,在我们看来仅仅是3D空间模型,服务于具身智能。而 真正世界模型,远超具身智能的范畴, 包括认知从宏观到微观的世界,也包括认知人的内在需求,甚至包括所有的生命,即物理科学和生命 科学。 此前,我们更专注于企业市场,专注于企业软件中的垂直模型。我们虽然做出了一些成绩,但也意识 到智能的天花板也受限于企业市场。未来,我们要把格局放到整个市场,面向改造所有可能的业务, 当这些能力 ...
人形机器人的“iPhone时刻”快到了?
日经中文网· 2025-03-15 09:59
英伟达CEO黄仁勋在主题演讲中介绍人形机器人(1月6日,美国拉斯维加斯,摄影:积田檀) 大约15年前,iPhone成为新的技术平台,APP经济圈因此繁荣起来。随着生成式AI的发展,有观点 认为人形机器人也将迎来"iPhone时刻"。中美竞争激烈,中国有小鹏鹏行、宇树科技;美国有 Apptronik、Figure AI…… 奥平和行: 以美国和中国为中心,人形机器人的开发竞争火热。随着生成式AI的迅速发展,人形机器 人的实用化时期日益临近,有观点认为将迎来人形机器人渗透至社会的"iPhone时刻"。针对人形机器人 的乐观预测认为,到2050年全球市场规模将超过6亿台。在这种情况下,作为"机器人大国"显示出存在 感的日本也将被迫做出应对。 1月6日,美国拉斯维加斯,在科技展会CES(国际消费电子展)现场发表主题演讲的美国英伟达CEO黄 仁勋展示了14台人形机器人,将现场气氛推向高潮。黄仁勋表示,"它们是我的朋友。借助我一直介绍 的技术,未来几年将会实现飞跃发展"。 人形机器人的历史始于1920年代,大约20年前本田的"ASIMO"和索尼的"QRIO"曾引发热门话题。 当时由于用途有限且价格昂贵,这些机器人未能普及 ...
对话小马智行楼天城:只靠端到端无法通向 L4,模仿优秀司机令人绝望
晚点LatePost· 2025-01-09 18:41
技术路线演进 - 小马智行经历从Learning by Watching(模仿学习)到Learning by Practicing(实践学习)的技术路线切换,核心突破在于构建"世界模型"作为车端模型的训练工厂[7][17][18] - 模仿学习存在三大局限:无法学习驾驶意图、人类与AI安全标准双标、优秀司机数据导致反向优化[19][22][23] - 世界模型由数据生成器、评估体系、高真仿真和数据挖掘工具组成,其精度决定车端模型上限[26][27][35] 行业现状与竞争格局 - 2023年Robotaxi行业回暖标志:Waymo旧金山日均单量超出租车、百度武汉运营400+辆、小马智行达百辆级规模[14][15] - L4与L2技术路线分叉:L2依赖数据量(MPCI约300公里),L4追求安全性(MPCI需达10万公里级)[45][47] - 商业化临界点为1000台运营车辆可实现毛利,小马智行采取差异化策略追求更优成本结构[52][53] 核心技术创新 - 世界模型使事故率降至人类司机1/10,车端模型实现感知-预测-规控三模块端到端打通[36][37] - 数据生成技术突破:生成数据覆盖率与一致性超越真实路采数据,解决长尾场景覆盖难题[28][29] - 评价体系与自我演进引擎构成技术护城河,需2/3研发资源投入且经历两年无显性进展的攻坚期[31][39] 商业化进展 - 运营效率提升:接入高德后单车日均订单达15单,远程监控人车比突破1:3向1:30迈进[54][53] - 前装量产合作推进:与丰田、广汽合作降低车辆成本,通过出租车公司合作解决充电等运维问题[53] - 行业竞争态势:滴滴等新玩家入局但市场渗透率不足1%,现阶段以共同培育市场为主[54][66] 认知方法论 - 技术突破关键在坚持"黎明前的黑暗",疫情延缓行业节奏反而为转型创造窗口期[10][40][41] - 商业化需平衡节奏与价值,避免过早变现或过度追求理想化目标两个极端[65][66] - 结果导向思维:技术方法的优劣由最终成果验证,非理论先进性决定[67][68]
AI 月报:10 亿美元训练不出 GPT-5;低成本中国开源大模型走红;AI 幻觉不全是坏处
晚点LatePost· 2025-01-07 22:59
技术进展 - OpenAI训练GPT-5遇阻,已投入20个月和至少10亿美元算力成本,但性能提升未达预期,两次从头训练均未突破博士生水平目标[4] - 数据短缺迫使OpenAI采用人工生成数据(工程师/科学家每日5000字)和模型生成数据(o1模型)补充,但规模仍远低于GPT-4的10万亿字训练量[5] - o3模型在CodeForces编程竞赛得分比o1提升44%,数学测试EpochAI解决25.2%问题(其他模型<2%),但AGI评测得分因数据预训练存在争议[7][9] - 强化学习重要性提升,OpenAI推出RFT微调方法,LangChain报告显示人类反馈强化学习应用增长18倍[5][9] - 世界模型取得突破:DeepMind的Genie 2生成可交互虚拟场景,李飞飞团队实现AI图片转3D场景,CMU/英伟达开源机器人模拟系统Genesis[14] 行业竞争 - Google Gemini 2.0 Flash系列模型抢占Chatbot Arena前三,OpenAI首次失去榜首地位[18][21] - 中国开源模型崛起:DeepSeek-V3以578万美元训练成本逼近GPT-4o性能,Qwen2.5-plus超越Meta Llama 3.1[23][26] - 芯片领域博通市值破万亿美元,2024年AI收入增长220%至122亿美元,为Google/Meta等提供自研芯片方案[29] - 英伟达推出B300 GPU适配o系列模型,算力/显存提升50%,xAI计划将H100算力中心从10万张扩展至100万张[33][34] 应用与商业化 - OpenAI推出12项ChatGPT升级:订阅费最高2000美元/月,集成Sora视频生成、电话交互、生产力工具插件等功能[36] - Agent成为新趋势,Google Gemini 2.0专为Agent优化,YC预测其市场规模将比SaaS大10倍[12][13] - 大模型嵌入传统行业:Salesforce招聘2000人推广AI Agent,微软Phi-4模型(140亿参数)性能超越更大模型[38][12] - AI硬件进展:Meta计划为Ray-Ban眼镜增加屏幕,OpenAI重组机器人团队,中国预计2025年出现"百镜大战"[40] 投融资动态 - 21家AI公司获超5000万美元融资:中国智谱AI获30亿元(估值200亿元),阶跃星辰聚焦多模态模型,Liquid AI开发新型神经网络架构[42][43] - 基础设施领域Databricks融资86亿美元(估值620亿美元),Tenstorrent获7亿美元开发RISC-V架构AI芯片[44] - 应用层公司多成立于ChatGPT前:Zest AI(金融风控)、Tractian(工业设备监测)、Speak(语言学习)等获大额融资[46][47][48] 科学价值 - 大模型"幻觉"被科学家重新定义:加速抗生素研发(MIT)、生成全新蛋白质(诺奖得主Baker实验室获100项专利)[50][51]
小马智行 IPO,8 年坚持 L4 的少数派
晚点LatePost· 2024-11-28 22:57
公司上市与市场地位 - 小马智行于11月27日在纳斯达克挂牌上市,股票代码为“PONY”,发行价13美元,募资4.52亿美元,比原计划超募33% [4] - 公司是全球范围内实现全无人RoboTaxi运营的三家公司之一,另外两家是Waymo和百度 [4] - IPO前,公司共获得7轮融资,累计金额超过13亿美元,投资方包括红杉中国、IDG资本、五源资本、丰田汽车和沙特新未来城等 [5] 业务运营与财务表现 - 公司在“北上广深”四座一线城市运营,拥有一支超过250辆RoboTaxi的车队,累计自动驾驶里程超过3350万公里,其中全无人驾驶里程达390万公里 [5] - 除RoboTaxi外,公司核心业务还包括无人货运,其Robotruck车队累计完成的货运周转量达7.67亿吨公里,相当于2023年北京市全年货物周转量的1% [5] - 公司亏损正逐渐收窄,2022年调整前净亏损为1.48亿美元,2023年为1.25亿美元,2024年上半年为5178万美元,同比下降25.6% [5] - 公司在北京、广州和深圳均已开始RoboTaxi全无人商业收费运营,例如在北京提供大兴机场自动驾驶接驳收费服务 [9] 技术路线与研发历程 - 公司自创立之初就坚持L4级自动驾驶技术路线,并将业务主线清晰收束为RoboTaxi和干线无人货运两个场景,其“虚拟司机”的底层核心技术复用率超过80% [9] - 2020年,公司遇到研发瓶颈,花费约三分之二的研发精力自建了一套数据驱动的量化评估系统,为测算全无人实现时间提供了依据 [11] - 公司经历了技术路线的重大转变,从“Learning by Watching”转向“Learning by Practicing”,并构建了由生成器、评价矩阵、高真实性仿真环境和数据挖掘工具组成的“世界模型” [12] - 公司CTO楼天城认为,当前的L2+主流技术路线无法达到L4,因为L4的目标是安全性远超人类,而模仿人类驾驶的方式有时会带来负优化 [12] 战略合作与未来规划 - 公司与全球最大车企丰田建立了战略合作,丰田在2020年领投了公司5.454.62亿美元的CB轮融资,并持续提供RoboTaxi车辆 [9] - 公司与丰田合作研发的下一代L4级别自动驾驶车型铂智4X Robotaxi已发布,计划在2025至2026年于国内一线城市投放千台规模 [15] - 公司与北汽新能源基于极狐阿尔法T5车型合作研发全无人Robotaxi车型,目标尽快形成千台规模的运营能力 [15] - 公司将把成本下降作为未来两年最核心的目标,以实现单车盈利,从而继续扩大运营规模 [15] - 公司IPO募资的约40%将用于自动驾驶出行及货运服务的大规模商业化,约40%用于技术研发,约20%用于潜在战略投资和收购 [14]