世界模型
搜索文档
死磕机器人大脑的北大副教授,和我们聊了聊具身领域最大的“偏见”
36氪· 2026-01-24 21:35
行业趋势:软硬分化 - 行业核心观点为“软硬分化”,即模型大脑与机器人本体由不同公司各司其职,与当前多数高估值公司追求的“软硬一体”全栈模式形成对比 [1] - 2026年初美国机器人模型公司Skild AI完成14亿美元C轮融资,估值翻三倍至超140亿美元,成为千亿独角兽,为一二级市场重新定价纯模型公司开了好头 [2] - 纯自研一个具身模型年开销高达数千万甚至上亿元,而外采一台机器人“大脑”的一次性成本仅需几万元,经济账促使行业审视全栈路线的性价比 [8] - 技术栈过长,模型与硬件是两套能力体系,一家公司难以两头做深,过去一年出现为融资而“套壳”做Demo但无法真实落地的公司,促使创业者重新思考路线 [9] - 行业正逐渐意识到本体公司自研模型本质是商业行为,随着更多机器人本体公司寻求合作,具身模型公司的估值正变得越来越贵 [14] 公司战略与产品 - 智在无界选择逆势专注研发机器人大脑(模型),不涉足硬件制造,并于近日完成数千万元天使轮融资 [1] - 公司目标是证明模型公司的价值,研发跨品牌、跨形态的具身智能模型,让硬件公司无需背负整个技术栈 [3] - 已推出灵巧手操作模型Being-H系列,最新发布的Being-H0.5模型可控制30种不同机器人,并能端侧部署在英伟达Orin-NX等小型芯片上实时运行 [3] - 正在研发用于控制双足机器人移动和操作的模型Being-M系列,这是一个多模态移动操作模型,训练数据包括对齐的第一人称、第三人称视频及动捕数据 [29] - 公司客户包括PND、灵心巧手等硬件公司,通过提供模型及增值服务Being-Dex,可实现机器人“开箱即用”及数小时学会新任务 [4] 技术核心:数据与训练 - 公司能力的核心在于拥有超3万小时预训练数据,据称为当前全球规模最大的具身智能模型预训练数据集 [5] - 采用独特的“人类动作视频”方案,通过头戴摄像头录制第一视角手部动作视频,具有数据规模大、成本低、能记录复杂操作的优点 [5] - 该数据方案早于业界共识,公司于2023年底开始使用,2025年七八月推出首个灵巧手模型Being-H0,使用了约100万条第一人称视角人手操作视频 [21] - 公司判断,数据规模需达到100万小时量级,机器人才更可能具备快速学习复杂新任务的真正泛化能力,预计该量级在2027年可达 [24] - 在“预训练-后训练”框架中,预训练阶段用大量人类视频让模型模仿人类;后训练阶段将信息与物理空间对齐,适配不同本体,并探索融入触觉等多模态信息 [26][27][28] 模型性能与现状 - 新发布的Being-H0.5模型在泛化性及跨本体性能上较半年前的Being-H0有非常大提升,其预训练融合了30种不同构型本体的真机数据 [31][33] - Being-H0.5展示出优秀的跨本体泛化能力,例如用宇树G1采集数据训练出的模型,首次上机即能让PND的Adam-U成功执行同一任务 [33] - 当前行业核心卡点在泛化性,具身智能远未达到可落地真干活水平,许多“工业场景落地”仍停留在演示或短周期概念验证阶段 [19] - 泛化性不足的原因部分在于硬件(如缺稳定好用的高自由度灵巧手及触觉反馈),部分在于模型(行业尚未研发出真正能干活的灵巧手模型) [20] - 行业内存在公司套壳其他模型(如PI 0.5)仅做后训练即宣称自研的情况,同时Demo拍摄可能存在技巧(如实为遥操作),与真实落地能力有差距 [35][36] 商业化与市场展望 - 公司当前收费模式为按机器人收取一次性License费用,范围在几万至十万元,另提供按数据量收费的后训练服务Being-Dex [16] - 当硬件公司出货量达到一定程度,可转为类似SaaS年包的付费方式,未来模型公司将存在竞争,可防止对硬件公司“坐地起价” [16] - 公司创始人认为,若技术收敛至通用模型阶段,机器人进入家庭,模型公司的市场将更大,甚至可做To C业务,公司也可能通过OEM涉足机器人产品 [17] - 创始人认为模型能力产生质变不会是循序渐进的过程,可能需要基于方法或模型层面的变化 [32] - 对于热点“世界模型”,认为若仅作为训练中的数据生成器可行,但若用于直接部署控制机器人则极其复杂且消耗算力,目前难度很大 [38][39]
估值35亿美元,LeCun创业公司官宣核心方向,掀起对Next-token范式的「叛变」
机器之心· 2026-01-24 12:09
公司核心方向与技术愿景 - 公司核心方向是开发“世界模型”,旨在构建能够理解现实世界的智能系统 [1] - 世界模型是一种能够准确反映现实动态的新型人工智能架构,旨在解决当前大模型在处理真实世界感知数据时的根本性挑战 [2] - 该模型将不再执着于逐像素生成现实,而是学会对真实世界传感器数据进行抽象建模,过滤掉不可预测的噪声,并在更高层次的表征空间中进行预测与推理 [2] 世界模型的关键能力与应用领域 - 世界模型应同时具备四项关键能力:理解真实世界、拥有持久记忆、能够进行推理与规划、以及可控且安全 [5] - 公司进一步提出“带动作条件的世界模型”,该模型能够预估智能体采取行动后的结果,并在安全约束内规划行动序列以完成任务 [3] - 其目标不仅是理解世界,更是让AI能够在真实世界中可靠地行动 [4] - 应用方向高度聚焦于对可靠性、可控性和安全性要求极高的领域,包括工业流程控制、自动化系统、可穿戴设备、机器人与医疗健康等场景 [4][18] 对现有AI范式的批判与替代路径 - 公司创始人Yann LeCun对现有大语言模型的发展持怀疑态度,认为仅靠预测下一个token的生成式模型无法真正做到理解现实世界 [2] - LeCun批评大语言模型依赖next-token预测的方式本质上是在猜答案,而真正的智能应建立在目标驱动与能量最小化的机制之上 [8] - 他认为,如果一个系统无法提前预测自身行为可能带来的后果,就无法构建真正的智能体系统 [11] - 公司被视为对大语言模型的一种逆向投资,旨在解决LLM的局限性(如幻觉问题),尤其是在医疗等高风险领域 [17] 行业背景与竞争格局 - 构建连接AI与现实世界的基础模型,已成为AI领域最令人兴奋的探索方向之一,正吸引顶尖科学家和资金雄厚的投资者持续加码 [13] - 由AI先驱李飞飞创立的World Labs在推出首款产品Marble后估值飙升,据报道正在洽谈新一轮融资,估值达50亿美元 [13] - 整个AI行业几乎被大语言模型所占据,很少有公司敢于走一条不同的路 [9] - Meta选择了全面押注大语言模型,这与LeCun的研究方向不同 [10] 公司融资与估值情况 - 有传言称公司可能正以35亿美元估值进行融资 [14] - 正在与公司洽谈的风投机构包括Cathay Innovation、Greycroft、Hiro Capital,其他潜在投资者还包括20VC、Bpifrance、Daphni和HV Capital [14] 公司治理与团队构成 - Yann LeCun担任公司的执行董事长,而非首席执行官 [14] - 首席执行官由Alex LeBrun担任,他此前是医疗AI初创公司Nabla的联合创始人兼首席执行官 [14] - Alex LeBrun转任源于Nabla与公司的一项合作,Nabla获得了对公司世界模型的“优先访问权” [16] - 公司CEO身边有许多熟悉面孔,包括曾在Meta的FAIR实验室工作的人员,以及据传将加入的前Meta欧洲区副总裁Laurent Solly [16] - 前雇主Meta很可能成为公司的首个客户 [16] 技术路线的行业印证 - 硅谷初创公司Logical Intelligence任命Yann LeCun为其技术研究委员会创始主席,其技术路线与LeCun倡导的思路高度一致 [7] - Logical Intelligence推出的能量-推理模型Kona,宣称其性能比OpenAI的GPT-5和谷歌的Gemini更准确,功耗也更低 [8] - Kona采用基于能量的推理模型,通过根据约束条件进行评分来验证和优化解决方案,从而找到能量最低(最一致)的结果 [8] - 无论是Logical Intelligence的能量推理模型,还是公司的世界模型,本质上都指向同一个方向:跳出语言生成范式,转向能够理解、预测并作用于真实世界的智能系统 [8] 公司运营与未来计划 - 公司计划将其技术授权给行业合作伙伴以用于实际应用 [18] - 同时计划通过公开出版物和开源项目,与全球学术研究界共同构建AI的未来 [18] - Yann LeCun计划保留在纽约大学的教授职位 [19] - 公司将成为一家总部位于巴黎的全球性公司 [20]
量产元年之后 中国人形机器人走向“价值战”
新京报· 2026-01-23 22:36
行业概览与规模 - 2025年被视为中国人形机器人的“量产元年”,国内整机企业数量超过140家,发布产品超过330款 [1] - 行业在技术、产品迭代、量产交付、场景落地等方面取得进展,产业规模与活力持续释放 [1] - 2025年,消费级机型价格下探至万元级别,工业领域亿元订单频出 [1] - 2026年预计将成为行业规模化放量和商业化加速的关键转折点,行业整合将加速 [1] 产品分层与价格下探 - 消费级产品进入万元区间,如松延动力的“小布米”售价9998元,定位娱乐陪伴、教育、展览展示 [2] - 宇树科技Unitree R1机器人起售价2.99万元,集成多模态大模型,适配教育、展示等场景 [2] - 加速进化Booster K1入门级具身开发平台起售价2.99万元,面向开发者市场 [2] - 轮式与双足形态并行发展,轮式机器人凭借高稳定性在服务业表现突出,如星动纪元的Q5轮式服务机器人 [2] 工业应用与技术突破 - 工业旗舰机型成为技术实力展示窗口,如优必选Walker S2支持自主换电和群体协同,已进入汽车制造、智慧物流等领域实训 [3] - 千寻智能Moz1是国内首个高精度全身力控人形机器人,负载自重比达到1:1,已在宁德时代新能源电池生产线上应用 [3] - 核心零部件进一步国产化,灵巧手、一体化关节、行星滚柱丝杠等“卡脖子”环节预计2026年为降本和规模化提供支撑 [3] - 慧灵科技的eHand-6灵巧手价格已下探至2999元 [3] 技术发展:“大脑”与“小脑” - 行业竞争焦点转向“大脑”与“小脑”协同和AI能力比拼,端到端具身大模型与世界模型的融合成为技术进化核心方向 [4] - 端到端的VLA大模型正成为具身智能领域主流技术路径,世界模型应用于机器人推演能力训练 [4] - 自变量发布的WALL-A模型首创VLA与世界模型深度融合,提升了机器人在非结构化环境中的零样本泛化能力 [5] - 数据与模型是行业面临的核心瓶颈,缺乏数据是端到端具身大模型发展的主要瓶颈 [5] 量产进展与出货数据 - 2025年智元机器人年度出货量超过5100台 [6] - 宇树科技2025年人形机器人实际出货量超5500台,本体量产下线超6500台 [6] - 优必选2025年全年交付超500台,产能突破1000台 [6] - 2026年企业积极规划产能扩张,智元机器人称出货量可达数万台,优必选预计产能提升至万台规模 [6] 商业化落地与场景探索 - 工业场景成为绝对主战场,优必选披露2025年人形机器人全年订单近14亿元,Walker S2交付超500台 [7] - 智元机器人与龙旗科技合作,计划在消费电子精密制造场景部署近千台机器人 [7] - 银河通用与百达精工合作,计划部署超过1000台具身智能机器人 [7] - 文旅、零售与服务领域探索商业模式,如智平方的“智魔方”已落地商超,其机器人可进行咖啡制作、零售导购 [7] - 家庭与商用陪伴领域,傅利叶GR-3具备情感化交互,乐享科技推出全线产品强调“陪伴”和情感联结 [7] 行业挑战与未来展望 - 商业化进程面临挑战,目前大多数人形机器人仍以展示、表演为主,缺乏类人的自主学习和延伸能力 [8] - “速度”与“泡沫”需要平衡,技术路线、商业化模式、应用场景等方面尚未完全成熟 [8] - 国内已有超过150家人形机器人企业,半数以上为初创或“跨行”入局,需防范产品“扎堆”上市等风险 [8] - 政策将持续推动技术创新,布局国家科技重大项目,提升大模型、一体化关节、算力芯片等技术 [9] - 行业洗牌将成为必然趋势,到2026年国内上百家公司中最终可能只留下10到20家 [9] - 资本市场逻辑将转向更现实的营收结构、毛利率、现金流与商业化路径,缺乏核心技术的企业将面临挑战 [10] - 未来胜出公司分为两类:将硬件成本控制到极致的本体企业,以及专注于“大脑”的软件公司 [10] - 2026年是检验行业商业化能力的关键一年,关键在于谁能率先找到大规模应用场景,实现自我造血 [10] 主要厂商及产品列表 - 宇树科技:产品包括R1、H2、G1-D [12][13] - 智元机器人:产品包括精灵G2、灵犀X2 [13][14] - 加速进化:产品包括Booster K1 [15] - 星动纪元:产品包括星动L7、星动Q5 [16] - 千寻智能:产品包括Moz1 [17][18] - 傅利叶智能:产品包括GR-3、Fourier N1 [19] - 优必选:产品包括Walker S2、Cruzr S2 [20][21] - 北京人形机器人创新中心:产品包括具身天工2.0、天轶2.0 [24] - 松延动力:产品包括N2、EJ、小布米 [25] - 越疆科技:产品包括Dobot Atom [26] - 其他列出的厂商还包括云深处科技、擎朗智能、魔法原子、光谷东智、灵宝CASBOT、星尘智能、上纬新材、鹿明机器人、乐享科技、众擎科技、源络科技、星海图、动易科技、普渡科技、智平方、跨纬智能、赛博格、帕西尼、逐际动力等 [17][19][20][22][23][24][25][26][27][28][29][30][31][32][33][34][35][36][37][38][39]
量产元年之后,中国人形机器人走向“价值战”
贝壳财经· 2026-01-23 22:07
产业规模与活力 - 2025年中国人形机器人产业超预期迭代演进,国内整机企业数量超过140家,发布产品超过330款 [1] - 2025年被视为“量产元年”,产业在技术、产品迭代、量产交付、场景落地等方面取得进展,产业规模与活力持续释放 [1] - 消费级机型价格下探至万元级别,工业领域亿元订单频出 [1] 产品分层与价格下探 - 2025年人形机器人产品定位呈现明显分层,消费级产品进入万元区间 [3] - 松延动力推出的“小布米”售价仅9998元,定位娱乐陪伴、教育、展览展示,成为全球首款万元级消费机器人 [3] - 宇树科技发布的Unitree R1机器人2.99万元起售,集成多模态大模型,适配教育、展示等场景 [3] - 加速进化推出的Booster K1入门级具身开发平台价格2.99万元起,面向开发者市场 [3] 技术形态与工业应用 - 轮式与双足形态并行发展,轮式机器人凭借高稳定性与部署灵活度在服务业表现突出 [3] - 星动纪元的Q5轮式服务机器人依托端到端具身大模型ERA-42,已在商场中开展实训 [3] - 工业旗舰机型成为技术实力核心展示窗口,优必选Walker S2支持自主换电与群体协同,已进入汽车制造、智慧物流等领域实训 [4] - 千寻智能的Moz1作为国内首个高精度全身力控人形机器人,负载自重比达到1:1,已在宁德时代新能源动力电池生产线上应用 [4] 核心零部件国产化 - 灵巧手、一体化关节、行星滚柱丝杠等“卡脖子”环节核心零部件进一步国产化 [4] - 慧灵科技的eHand-6灵巧手价格已经下探至2999元 [4] - 行星滚柱丝杠等高端零部件有国内企业突破垄断,逐步推进国产替代 [4] 技术焦点:“大脑”与“小脑” - 人形机器人的竞争焦点转向“大脑”与“小脑”协同和AI能力比拼 [5] - 端到端具身大模型与世界模型的融合应用成为技术进化核心方向之一 [5] - 端到端的VLA大模型正逐步成为具身智能领域主流技术路径,世界模型开始应用于机器人推演能力训练 [6] 模型发展与数据瓶颈 - 北京人形开源世界模型WoW和多模态具身通用模型Pelican-VL,为机器人提供了理解物理世界和进行复杂任务规划的能力基础 [6] - 基于“慧思开物”平台和跨本体VLA模型XR-1,具身天工2.0实现了全自主分拣零部件 [6] - 自变量发布自研的WALL-A模型,首创VLA与世界模型深度融合,提升了机器人在非结构化环境中的零样本泛化能力 [6] - 视觉输入的端到端具身大模型遇到的主要发展瓶颈是缺乏数据,数据成本高昂 [7] - 业内对于模型的关注度还不够,模型能力不足会影响数据使用效果 [8] 量产进展与产能规划 - 2025年多家企业具备了从几百台到几千台的量产出货能力 [8] - 智元机器人2025年度出货量超过5100台 [8] - 宇树科技2025年人形机器人实际出货量超5500台,本体量产下线超6500台 [8] - 优必选2025年全年交付超500台,产能突破1000台 [8] - 2026年行业有望迎来规模化放量,智元机器人称出货量可达数万台,优必选预计产能提升至万台规模 [8] 商业场景落地 - 工业场景成为绝对主战场,优必选披露2025年人形机器人全年订单近14亿元,Walker S2交付超500台 [9] - 智元机器人与龙旗科技合作,将在消费电子精密制造场景部署近千台机器人 [9] - 银河通用与百达精工合作,计划部署超过1000台具身智能机器人 [9] - 文旅、零售与服务领域探索商业模式,智平方的“智魔方”已落地商超,计划三年内在全国落地1000个站点 [9] - 家庭与商用陪伴领域,傅利叶GR-3具备情感化交互,乐享科技布局从大型通用机器人到家庭陪伴机器人的全线产品 [9] 行业挑战与洗牌预期 - 当前人形机器人在技术路线、商业化模式、应用场景等方面尚未完全成熟 [10] - 我国目前已有超过150家人形机器人企业,半数以上为初创或“跨行”入局 [10] - 行业洗牌将成为必然趋势,到2026年行业将进入洗牌期 [11] - 国内上百家人形机器人公司中,最终可能只留下10到20家 [11] - 2026年资本市场对企业的审视将全面转向营收结构、毛利率、现金流与商业化路径 [12] 政策支持与未来方向 - 下一步将持续推动人形机器人技术创新和迭代升级,以人形机器人为小切口带动具身智能大产业发展 [11] - 着力“攻技术”,布局国家科技重大项目,提升大模型、一体化关节、算力芯片等技术水平 [11] - 加速“壮生态”,强化国家人工智能产业投资基金支持力度,建设开源社区,发布综合标准化体系建设指南 [11] - 未来能够胜出的公司,一类是将硬件成本控制到极致的本体企业,另一类是专注于“大脑”的软件公司 [12] - 2026年是检验行业商业化能力的关键一年,关键在于谁能率先找到大规模应用场景,实现自我造血能力 [12]
在OpenAI“创新已经变得困难”,离职高管深喉爆料
36氪· 2026-01-23 21:12
OpenAI的创新与结构性困境 - 随着竞争加剧与组织急速膨胀,OpenAI正逐渐陷入一种难以再承担真正高风险研究的结构性困境,一些前沿创新的研究方向已经难以在内部推进 [1] - 成本、增长压力等多重因素影响了OpenAI对风险的“胃口”,同时该公司尚未找到良好的跨团队研究协作模式 [3] - 对OpenAI来说,“集中力量办大事”已经变得有些困难,阻碍AI Lab研究的因素不是算力短缺,而是缺乏专注 [5] 行业竞争格局与路径趋同 - 当前全球范围内争夺“最佳AI模型”的竞争异常激烈且严苛,几乎所有主要AI公司都面临持续展示实力、不断推出最强模型的巨大压力 [8] - 目前大概有五家严肃的AI公司,使用几乎相同的技术配方,在同一技术基础上构建略有差异的产品,模型之间缺乏真正的多样性 [14][15] - 谷歌的崛起与其说是“回归”,不如说是OpenAI自己犯了错误,没能充分把握住自己的领先优势,OpenAI本应该持续领先 [3][47] 技术发展方向与AGI展望 - Transformer架构肯定不是最终形态,模型仍然可以通过多种方式改进,而其中许多路径至今尚未被系统性地实践 [12] - 实现AGI仍然缺失关键拼图,架构创新与持续学习是两大重要方向,AGI预计将会在2029年左右实现 [5][28][32] - 强化学习将卷土重来,在强大的世界表征(通过大规模预训练获得)之上,通过强化学习构建能力层级是未来的方向 [26][27] 人才流动与创新环境 - AI领域的人才争夺战已演变成一场肥皂剧,有些人频繁地更换工作,而真正投入到工作的时间不多 [4][44] - 明星AI研究员并不是驱动创新的核心因素,公司本身能否打造个人责任感强、允许探索和做大事的环境,可能更为关键 [4][66][67] - 研究人员的高薪酬水平可能带来副作用,使人们变得不愿意失去工作,更倾向于追逐短期回报,从而抑制了冒险精神 [18] OpenAI的内部文化与执行力 - OpenAI从2019年约30人发展到现在的几千人,但公司瞄准AGI、改变世界的野心始终没变 [7] - OpenAI早期有相当高比例的波兰裔员工,他们以勤奋和能识破“忽悠”著称 [45][46] - OpenAI真正擅长的是把研究从1推进到100,即采纳初步验证的想法,并找出如何让它们在大规模训练前沿模型时可靠地工作 [64] 对其他AI公司的评价 - 在过去一年里,对Anthropic的钦佩程度大幅上升,其起步更晚、资源受限,但成功构建了正在改变软件开发方式的卓越产品 [53][54] - Meta的策略可能是利用行业已掌握的AI技术来构建连接人和打造体验的产品,从其作为一家极其盈利的社交网络公司角度来看,这可能是一种相当不错的策略 [50][51][52]
具身智能的冷思考:告别宏大叙事,奔向商业战场
创业邦· 2026-01-23 18:15
文章核心观点 - 2025年具身智能行业热度呈指数级暴涨,但一线从业者对实现真正通用机器人的时间表持审慎态度,认为距离比想象中遥远 [2] - 行业共识是应避免追求无边界“通用”,转而聚焦于特定应用领域(ODD)的落地,回归商业本质 [4][6] - 从技术演示到商业化存在巨大鸿沟,需警惕技术泡沫,并重视从技术研发向企业经营的关键转变 [9][18] 为何选择具身智能创业之路 - 国家战略是重要驱动力,例如“中国脑计划”等国家级项目持续投入,为行业培养了人才并准备了数据与算法基础 [5] - 技术突破创造了窗口期,例如2023年因算法进步,机器人操作领域出现巨大机会,促使团队创业 [6] - 愿景驱动,旨在为各行各业的智能硬件和机器人赋能,使其更智能、更好用 [5] 对“通用机器人”的冷思考与边界定义 - “通用”概念范围无限大,被认为大部分不靠谱,应将其收窄到应用领域(ODD)更明确的范围 [6] - 机器人发展符合Gartner曲线,梦想越大,实现所需时间越长,应坚持在特定领域内实现有限通用 [7] - 预计从2026年开始,会有一些场景率先落地 [6] - 技术落地面临传统方法与新兴端到端模型的矛盾,当前应寻找人形机器人大脑的兼容形态(如向下兼容轮式单臂、四足机器人),以优化用户体验并缓解技术矛盾 [8] 技术路径:世界模型与落地挑战 - “世界模型”在机器人领域被定义为一套能根据当前或过去观测预测未来状态的系统,但尚未见其在机器人或自动驾驶端侧落地,云端应用(如仿真、训练数据生成)则已实践多年 [10] - 存在两条主要技术范式:一是追求上限高但过程艰难的端到端模型(爬悬崖),二是持续落地的类脑解耦路线(走盘山公路),后者因有数学基础且能阶段性产出而被部分公司采用 [11] - 解决机器人长程规划等核心问题,关键在于获取多元化的高质量数据,有公司正致力于开发低成本数据采集工具 [10] 从技术演示到商业化的陷阱 - 技术演示不等于商业化,不解决实际商业化中的泛化能力、成功率和生产节拍等具体问题,从业者需清醒认识从演示到商业化的漫长道路 [12] - 技术演示的性质和对象发生变化:从过去面向客户验证产品,转变为现在面向生态合作伙伴演示技术以共创产品,这易导致最终用户产生误解,需明确区分技术演示与产品演示 [14] - 技术演示在早期虽难直接产生商业价值,但有其必要性,类似于OpenAI早期论文或AlphaGo,其价值在于击穿技术临界点,企业战略与执行路径匹配即可 [13] 团队构建:算法与工程并重 - 构建团队并非算法与工程二选一的伪命题,顶尖的算法人才与工程人才都至关重要且昂贵,公司需要两者兼备才能运转 [15] - 当前创业公司的趋势是打造“小而精”的“特种兵”团队,成员需具备横向能力和全栈思维,并借助AI工具扩大个人能力半径,核心团队精简,大量利用外部资源 [16] - 资源投放有节奏,先投技术算法研发,再投产品与工程化,理想情况是技术人员能成长为兼具产品定义、工程落地和商业能力的复合型人才 [17] 2026年生存关键与行业展望 - 2026年决定公司生存的关键是从纯粹的技术研发转向企业经营和运营,需找到可被投资回报率验证的“根据地”并扩大,否则可能沦为人才输出基地 [19] - 2025年行业竞争主要体现在融资层面,2026年将开始出现真正的商业竞争,公司间将争夺订单,但激烈程度尚不及后续年份 [20] - 行业存在三个交替的小周期:硬件周期、场景周期和数据周期,2026年场景周期的开启将是重要旋律 [20] - 当前融资环境仍较宽松,给予公司战略窗口期,关键在于基于对行业未来3-10年发展的不同认知,倒推决定当前最应做的事情 [19]
从 DeepMind 到投身具身智能,王佳楠:算法最终还是要服务真实世界|万有引力
AI科技大本营· 2026-01-23 18:09
文章核心观点 - 通往AGI的终极路径是具身智能,其目标是让大模型进入物理世界,成为可用、可落地、可持续演化的智能体[1] - 具身智能并非AI的新分支,而是各类AI技术在现实世界中的统一落地点[6] - 实现具身智能需要从纯粹的算法研究转向与硬件、数据和真实场景不确定性正面交锋的全流程定义与开发[2][21] 从DeepMind到投身具身智能 - 嘉宾王佳楠的职业路径从牛津大学到DeepMind,再回国加入IDEA研究院进行生成式AI研究,最终于2024年加入星尘智能,投身于大模型与机器人结合的具身智能领域[1][7][18] - 在DeepMind期间,其研究方向是追求通用的强化学习框架,并亲历了AlphaStar等标志性项目的诞生[1][12] - 从DeepMind到创业公司的转变,本质是从“定义好问题”的纯算法研究,转向需要“定义问题本身”的解决真实世界问题的过程[6][14] 对具身智能的认知与信念 - 对嘉宾而言,AGI的终极形态就是智能机器人,这是其投身该赛道的根本信念[8][9] - 机器人是当前AI技术的一个重要终端平台,CV、NLP、大模型等领域的从业者都在此汇聚,以实现开放环境中与人交互的智能机器人目标[7] - 机器人研发涉及复杂的软硬耦合,与纯粹的AI开发逻辑完全不同,开发者需从“解题者”转变为“全流程定义者”[21] 技术架构:快慢系统(大小脑) - “快慢系统”(或称大小脑、System 1/System 2)是具身智能的核心系统观,其核心在于区分决策深度[6][25] - 快系统(小脑)负责无需语言中介、由直觉驱动的基础运动能力,其核心任务是通过海量动作片段数据预训练,构建机器人的“动作基元库”[28][29] - 慢系统(大脑)作为指挥官,通过高层指令精准调用快系统的原子技能,实现从“意图”到“执行”的闭环[29] - 该架构是一种功能定义,既可通过单一模型切换实现,也可通过多模型协作完成,并具备高度可扩展性[25] 关键瓶颈与解决方案探索 - **数据是当前最硬的瓶颈**,高质量的真机数据不可替代[6][33] - 解决数据瓶颈的探索包括:1)**数据增强**:在仿真中对真实采集的数据进行背景、光照等调整以扩充数据量;2)**纯仿真生成**:适用于交互不复杂的任务;3)**互联网数据积累**:用于解决上层语义理解和长时序任务规划等痛点[34][35] - 在模型架构上,常见方案包括使用单一Transformer的VLM框架,或外接世界模型(如DiT)提供预测提示,系统需要开放地接受不同形式的提示[31][32] - 让机器人理解人类非预设的复杂需求,核心在于意图表达的颗粒度,需结合“语言指令+多模态提示”(如勾勒运动轨迹、设定空间约束)[31] 对世界模型与VLA的看法 - 世界模型是一个有潜力的方向,但**不需要等待其完美**,能提供预测与提示价值即可,其本身并非银弹[6][38] - 如果已经能完美仿真一个问题所处的环境,那么该问题其实已经解决,这是一个哲学上的循环问题[38] - VLA是通往通用机器人的**关键一步和重要里程碑**,它为机器人配备了通用能力,但下游应用仍需要特定的设计或改动[6][41] 通用机器人的发展路径与时间表 - 通用机器人“走到人身边”可能只需**2到3年**,但实现完全自主还需要长期演化[6][43] - 更现实的路径是“可用先行、人类接管、逐步升级”,类似自动驾驶的发展节奏[6][43] - 若目标是在定义好的大量任务上达到高正确率,主要是一个数据和模型训练问题,若有足够快的数据采集和行业共创,**3到5年**可能积累覆盖日常各种场景的完整数据[44][45] 公司实践与发展现状 - 星尘智能团队具备多元化的行业长期积累,并通过紧密的多团队协作与创业精神实现了产品的快速发展[19] - 公司在数据方面进行了大量优化,并采用仿真进行数据增强,同时与MIT等高校合作探索多模态数据应用[33][47] - 公司目前处于“打磨”和推向科研、高校合作伙伴的阶段,门槛已有所降低,但商业化落地(让客户能自主验证和二次开发)是下一步关键挑战,整体进度估计在**50%左右**[50][51] 未来关键方向与行业建议 - 未来关键探索方向包括:1)**人机交互**:定义机器人理解意图、沟通及发出求助信号的交互方式;2)**多模态数据**:收集和应用触觉、力觉等更多模态数据以提升模型能力[47] - 具身智能是一条漫长但值得坚持的道路,需要开发者具备信念感和耐心[55] - 行业需要**共创共赢**的心态,集合个人、公司、社区的力量共同积累与反馈,以推进边界[6][55]
LeCun创业0产品估值247亿,回应谢赛宁入伙
量子位· 2026-01-23 15:44
公司概况与战略定位 - 杨立昆(Yann LeCun)离开Meta后创立新公司Advanced Machine Intelligence(AMI),法语意为“朋友”[9] - 公司总部位于巴黎,并计划在纽约、蒙特利尔、新加坡等地设立运营机构[10] - 公司坚定选择开源路线,与当前硅谷的闭源趋势相反,认为开源是构建人工智能平台的正确道路[11][13] - 公司前期将专注于研发,核心方向是“世界模型”,而非当前主流的大语言模型(LLM)[17][19] - 公司的终极目标是成为未来智能系统的主要供应商之一,不仅做研究,还会推出围绕世界模型和规划能力的实际产品[38] 技术理念与路径 - 公司认为构建智能系统的正确方式是“世界模型”,而非LLM[19] - LLM虽然有用,但仅通过处理语言无法实现人类水平的智能,因其受限于文本的离散世界,缺乏对物理世界的系统认知,无法进行真正的推理或规划[20][22][23] - 世界模型的核心在于理解世界背后的认知逻辑和抽象表征,而非生成精美的像素(如李飞飞的Marble公司所追求的像素生成路线)[30][31][32] - 公司技术基础是杨立昆此前提出的联合嵌入预测架构(JEPA),该架构不是生成式AI,无法预测未来所有细节,但能从世界的抽象表示中学习,并在抽象空间进行预测[34][36] - JEPA将使用文本、视频、音频和传感器等多种数据,通过学习世界的底层规则来实现真正的现实世界推理和规划[37] 融资与估值情况 - 公司(AMI Labs)正以30亿欧元(约合人民币247亿元)的目标估值寻求融资[45] - 预计将在未来几周内完成3.5亿欧元的初期融资,最终目标是首轮融资5亿欧元[46] - 一旦融资完成,公司将步入“商业成果0,但估值超10亿美元”的初创公司行列[50] - 当前风险投资(VC)圈的投资逻辑发生变化,从看产品或技术路径转向看重创始人背景,例如Ilya Sutskever和Mira Murati离开OpenAI后创办的零产品初创公司均获得了约20亿美元的估值[52][53] 人才招募与团队建设 - 公司正在积极招兵买马,已从Meta挖走前副总裁Laurent Solly[40] - 有消息称,公司有意邀请研究员谢赛宁加入并担任首席科学家一职[7][42] - 杨立昆在访谈中高度认可谢赛宁,称其为杰出的研究者,并曾两次成功聘请他(之前在FAIR和纽约大学)[43] 与Meta的关系 - 杨立昆对Meta的某些决策表示不满,例如解散机器人团队被认为是战略性错误,并认为Meta擅长研究但不擅长将技术转化为产品[15] - 尽管理念存在分歧,但Meta可能成为新公司的第一个客户,双方有望达成合作,Meta将有权访问其创新成果[5][47][48] - Meta将不会成为公司的投资者之一[47]
高盛中国人形机器人调研:行业从“通用想象”转向“专用落地”,2026或迎“放量验证+预期重置”
华尔街见闻· 2026-01-22 20:43
文章核心观点 - 中国人形机器人行业正经历从追求通用能力向聚焦专用场景落地的战略转型 行业结合运动控制能力的显著进步和快速迭代周期 推动主要厂商设定了2026-2027年出货量相对2025年数倍增长的激进目标[1] 行业战略与趋势 - 行业重心从追求通用能力转向安防巡逻、公共场所引导服务、工厂物流分拣等可利用现有任务规划、移动和交互能力的垂直场景[1] - 领先开发商优先发展“专用”商业部署 以绕开高度灵巧操作的复杂性和“模拟到真实”的差距瓶颈[4] - 世界模型方法的提及度越来越高 可能赋予机器人关于环境的常识 使其从反应性行为转向能进行复杂规划和适应的主动智能体[6] 市场规模与出货预期 - 高盛预计2025年全球人形机器人出货量约达1.5万至2万台 中国企业贡献了大部分出货量[1] - 头部制造商对2026-2027年设定了雄心勃勃的增长目标 预期从2025年的数百到数千台规模提升至数千到数万台 意味着数倍增长[1][2] - 2026年可能成为关键的“放量验证+预期重置”之年 投资者将关注“百万台机器人”等里程碑预期是否得到修正[1] 技术进展与迭代 - 人形机器人在运动控制方面取得实质性进展 展现出更强的鲁棒性和灵活性 相比前一年有显著提升[3] - 有制造商声称实现“小脑级别”全身控制能力 标准包括能在未预先建图的地形上导航以及实现全身远程控制[3] - 产品迭代周期已缩短至约6-8个月一代 这很大程度上归功于80%-90%的零部件自主设计能力[3] 应用场景与商业化 - 当前需求主要来自科研、机器人AI训练、教育、娱乐演出和数据工厂[2] - 在工业应用中 需要灵巧手或夹具的人形机器人目前仅限于搬箱和简单物品分拣等物流任务[5] - 在分拣和物流应用中 当机器人达到人类工人约50%的产能时 客户就愿意投资 可带来约两年的回本周期(假设每天运行约10小时)[5][7] 核心竞争力与数据策略 - 专有数据引擎成为开发可部署机器人智能的关键差异化因素 各公司正展开“数据配方”军备竞赛[6] - 高质量真实世界数据是弥合成熟硬件技术与可扩展实用应用之间差距的主要制约因素[6] - 公司采用不同组合的数据输入:远程操作的人类或专家演示数据、模拟数据、真实世界视频数据集[6] 商业模式分化 - 面向2C应用的公司聚焦提供差异化功能和增强用户体验 强调“情感价值”并捕捉专业化垂直细分市场以获得溢价[7] - 面向2B应用的公司将定价策略锚定在客户的投资回报率上 通过展示机器人如何提高产能、增强效率或降低人工成本来实现[7] - 在劳动力特别紧缺的环境中 三年回本期也被认为可以接受[7] 面临的挑战 - 实现增长目标将面临生产一致性保障和新兴行业固有的多阶段测试流程等挑战[2] - “模拟到真实”的差距仍是行业瓶颈 模拟环境中80%-90%的准确率在真实场景中往往跌至50%以下[4] - AI在处理工厂环境中不可预测的边角案例方面存在局限性[5]
2025年几家自动驾驶公司的采访总结
自动驾驶之心· 2026-01-22 17:07
核心观点 - 自动驾驶行业在核心算法层面已形成共识,即采用端到端(End-to-End)作为基础架构,并引入世界模型(World Model)作为关键基础设施 [6][7][10] - 行业在顶层认知上出现路线分歧,主要围绕是否在端到端模型中引入语言模型(即VLA与WA/反VLA之争),这本质上是计算效率与推理能力(快思考 vs 慢思考)的不同权衡 [7][11] - 未来三年是现有深度学习范式的“极致优化期”,核心在于通过海量数据驱动能力自然生长,而非理论重构 [7] - 行业竞争已超越单纯算法模型之争,研发基建、数据仿真、算力芯片、工程化能力及用户体验等非技术因素成为决定成败的关键变量 [13] 核心技术路线 端到端 (End-to-End) - 是自动驾驶的底层基座,替代了传统的模块化方案,直接从传感器输入映射到控制输出 [1][10] - 一段式端到端(One-Stage E2E)已被验证可行(如特斯拉FSD V12),统一了L2和L4的开发范式 [7] - 其局限性主要是“模仿学习”,能力上限受限于训练数据,缺乏逻辑推理 [12] 世界模型 (World Model) - 是核心算法演进中的关键基础设施,扮演“中间加速器”的角色 [7][10] - 主要作用分为两方面: - **对内(训练)**:作为“超级模拟器”,生成大量合成数据以解决长尾问题,并让端到端模型在虚拟环境中通过强化学习反复试错迭代,实现从“数据闭环”到“训练闭环”的演进 [2][8][11][18] - **对外(推理)**:作为“预测机”,帮助车辆理解物理规律和因果关系,直接指导动作生成 [9][11] - 3DGS(3D Gaussian Splatting)是构建高保真仿真环境的重要技术 [3] 视觉-语言-动作模型 (VLA) 与 世界-动作模型 (WA) - **VLA派(理想、英伟达)**:认为需要引入大语言模型赋予车辆逻辑推理(Chain of Thought)和解释能力,以处理复杂、罕见的长尾场景(System 2,慢思考) [9][11][12] - **WA/反VLA派(华为、小鹏)**:认为驾驶主要是直觉反应,引入语言环节会增加延迟和算力负担,主张直接从世界模型理解映射到动作(System 1,快思考) [9][11] - **务实派(小米)**:当前主推“端到端+世界模型+强化学习”解决直觉问题,内部预研VLA以备复杂推理需求,追求“智能密度”最大化 [9][11] 主要公司技术选择对比 | 公司 | 核心技术路线选择 | 核心逻辑与观点 | 世界模型/仿真工具的角色 | | :--- | :--- | :--- | :--- | | **理想汽车** | VLA (Vision-Language-Action) | 认知驱动,认为需从“模仿”进化到“自己学会”,单纯数据闭环不够,必须走向训练闭环 [9] | 利用《World4Drive》等模型构建可探索的虚拟世界,进行策略优化,是训练闭环的核心 [9] | | **英伟达 (NVIDIA)** | 物理AI + VLA (Alpamayo) | 强调AI的可解释性与推理能力,不仅要会开,还要能解释决策,并强调“Test time Scaling”(让AI多思考一会儿) [9] | 使用Omniverse & Cosmos生成合成数据和进行物理模拟,训练车辆学习物理定律 [9] | | **小米汽车** | 端到端 + 世界模型 + 强化学习 (预研VLA) | 智能密度最大化,当前方案优先解决“直觉”(System 1)问题,VLA类似“看悬疑片”(System 2),仅用于极复杂场景,不制造技术焦虑 [9][17] | 使用高保真模拟器进行强化学习训练,解决实车难以覆盖的长尾场景 [9] | | **地平线** | 一段式端到端 (One-Stage) | 范式统一,认为FSD V12证明了端到端的可行性,未来三年是“极致优化期”,旨在统一L2与L4的开发范式 [9] | 未详细展开,主要强调通过统一范式和低成本部署打通壁垒 [9] | | **华为 / 小鹏** | WA (World Action) / 反VLA | 去语言化,认为驾驶主要是直觉反应,不需要经过语言环节,以降低延迟和算力负担 [9] | 利用世界模型理解环境演变,直接指导动作生成 [9] | 非核心技术关键因素 研发基建与工程效率 - 基建(以数据为核心的研发效能)决定迭代速度,好的基建能大幅提升研发效率,例如小米能在一年内实现“追三代”的技术跨越,核心在于云端基建的复用和自动化率提升 [3][18] - 基建的好坏取决于发现问题后,能否迅速从海量数据中挖掘出类似场景,并形成高质量标注数据进行训练 [18] - 强化工程能力和组织能力被视为公司的“工业母机”,是应对技术范式变化的确定性方法 [18] 仿真与合成数据 - 仿真成为解决长尾问题(Corner Case)的核心,单纯依赖真实路测数据已无法满足需求 [14] - 合成数据价值极高,例如在小米的训练数据中,仿真数据占比约为20%,但节省了数倍的人力成本 [18] - 英伟达通过Cosmos世界模型生成符合物理定律的合成数据来训练自动驾驶模型 [18] - 理想汽车等公司强调从“数据闭环”走向“训练闭环”,让AI在虚拟世界中进行强化学习,自我探索最优策略 [18] 算力规模与芯片适配 - 智驾是算力和硬件的“暴力美学”,计算机工业的本质就是“玩命堆算力” [15][18] - 英伟达发布Rubin平台以应对每年增长5倍的AI推理需求,旨在将推理成本降低至原来的1/10 [18] - 算法上车面临巨大的“部署偏差”,从一颗芯片迁移到另一颗芯片通常需要6-10个月解决算子支持、计算精度对齐等问题,这种高昂的迁移成本构成了芯片厂商的护城河 [18] - 随着AI进行长序思考(System 2),车载芯片的“显存”面临巨大挑战 [18] 商业化成本与泛化能力 - 技术再先进也需考虑成本,智驾系统的目标是将L4级体验以极低的部署成本普及到10万元级别车型 [18] - 新一代端到端技术通过数据驱动,在一个复杂城市验证后,能大概率泛化到整个国家,极大地降低了扩张成本 [18] 用户体验与安全冗余 - 技术先进性不等于体验更好,必须在收益和风险之间取得平衡,避免为了“显摆技术”而制造焦虑 [17] - 安全机制至关重要,即便是激进的端到端方案也需要安全兜底,例如英伟达的方案中包含了一个经典的规则驱动AV栈作为安全护栏,在端到端模型信心不足时回退 [19]