Workflow
世界模型
icon
搜索文档
2026年:AI开始“物理扎根”
36氪· 2026-01-27 13:35
行业趋势:AI应用从数字向物理领域演进 - 2026年人工智能的主流应用正从数字领域的生成与对话,无可逆转地转向物理领域的感知应用[1] - AI智能的形态正从手机屏幕里跃迁出来,并越来越多地嵌入物理世界的运行中,例如在电网中实现数字孪生与多模态大模型融合以提升运营效率[3] 核心概念:物理AI的定义与挑战 - 物理AI是指可以理解物理定律、与现实环境互动并施加改变的智能系统,其特性是实现“假设-AI模拟-实验验证”的科研新范式[4] - 业内共识认为物理AI的突破可能更为艰难,5到10年的深耕可能只是起步[4] - 物理AI的发展逻辑与语言模型不同,它需要海量的物理交互语料来内化世界的运行法则,这种“知道”和“体会”必须靠“经历”而非仅靠标注[4] 技术路径:分层架构与端到端学习的融合 - 传统机器人学采用分层架构(感知、规划、控制),其优势是清晰、模块化,帮助国内机器人公司在仓储、巡检等场景快速落地,但存在信息损耗和延迟的天花板[5] - 当前趋势是实现更极致的“端到端”学习,让AI从视觉输入直接映射到动作输出,但面临数据来源、安全性以及错误输出导致真实物理损坏的挑战[5] - “世界模型”概念被推至前台,它让智能体在采取真实行动前能进行快速、低成本的推演,但构建通用物理世界模型极具挑战性[5] - 未来主流可能是一种基于世界模型的分层决策,融合大脑的想象规划与小脑脊髓的反射稳定,而非相互取代[6] 数据解决方案:合成数据与人类视频预训练 - 行业通过“开源节流”提升效率,首当其冲的是利用高保真物理仿真引擎(如英伟达Isaac Sim)以零边际成本生成近乎无限的合成数据[7] - 存在著名的“仿真到现实”鸿沟,虚拟世界的物理参数与真实世界存在微妙差异[7] - 另一种“开源”思路是利用人类日常视频(如YouTube第一视角视频)进行预训练,让AI无监督地学习物体属性和物理常识[7] - 前沿探索如英伟达GROOT模型,正实践“人类视频预训练+仿真微调+真机精调”的混合模式,暗示未来可能形成人类经验、虚拟仿真和实体交互的“三位一体”数据生态[7] 中国发展路径:工程落地与战略纵深 - 中国物理AI的发展路径更突出工程的场景落地,优势在于将前沿技术迅速工程化、产品化,并依托完整供应链控制成本[9] - 中国常常是第一个能将技术稳定、便宜地用在工厂流水线、物流仓库或电网巡检中的国家,这种工程化和成本控制能力构成了强大的市场穿透力[9] - 通过顶层设计为物理AI提供了清晰的应用场景和产业通道,“人工智能+”行动和“具身智能”被写入政府工作报告,系统性地开辟了庞大复杂的“训练场”[10] - 具体目标包括2027年智能终端普及率达到70%,为物理AI进化设定了现实坐标系[10] 发展前景与终极挑战 - 物理AI的终极梦想是“通用”智能体,能像人一样快速适应新环境、新任务,但距离此目标可能比想象更远[11] - 行业技术应用没有一招制胜的奇点,需要在感知、控制、规划、材料、能源等每一个环节持续突破[11] - 当智能体在人群中自主移动时,其决策失误的后果是物理性的,因此可解释性、安全冗余、伦理规范将成为不可逾越的生命线[11] - 2026年是一个重要的路标,标志着AI真正开始脱离虚拟领域,尝试触碰并塑造物理现实[12]
CB Insights:《2026年技术趋势研究报告》
文章核心观点 全球知名科技市场情报公司CB Insights发布的《2026年技术趋势研究报告》揭示了正在重塑全球经济的深刻技术变革,报告基于对1300多家独角兽公司、1500多个技术市场及数千家初创企业的跟踪数据,通过多维度分析指出技术创新从实验室走向商业化的关键路径,其预测方法在去年14个趋势中有11个得到市场验证[1] 企业运营自主化 - 人工智能代理的投资回报率衡量是企业面临的挑战,63%的企业将生产力提升作为首要指标,58%关注时间节省和成本削减,但对收入影响的量化仍困难[2] - 测量困境催生了新一代初创企业,如软件工程分析平台Span推出能检测AI生成代码的专有模型并获得2500万美元A轮融资,流程智能平台Workhelix获得1530万美元投资[2] - AI代理平台已从试点迈入生产阶段,在1261家拥有商业成熟度评分的AI代理公司中,超过一半达到第3级“部署”阶段[3] - 金融服务业成为自主系统的理想试验场,在2025年AI代理合作关系中占据21%份额,其中合规与欺诈检测领域83%项目、实时情报81%项目、客户服务和索赔承保93%项目已进入全面部署阶段[3] 私有市场演变 - 全球超过1300家独角兽公司中,有12家估值高于标准普尔500指数中位数市值390亿美元,例如SpaceX估值4000亿美元、ByteDance 4800亿美元、OpenAI 5000亿美元[4] - 技术公司IPO平均年龄从2015年的12.2年延长至2025年的15.9年,增长了近4年[4] - 2025年独角兽公司主导了9笔超过10亿美元的收购交易,例如OpenAI以450亿美元收购Rockset,Ripple以10亿美元收购GTreasury[4] - 顶级AI初创企业以创纪录速度扩展到1亿美元年度经常性收入,Lovable用时不到10个月,xAI约20个月,Anysphere和Perplexity约30个月,而Databricks花了约45个月,OpenAI约70个月[4] - 监管环境变化促使华尔街加强私有市场布局,摩根士丹利收购Shareworks,施瓦布收购EquityZen[6] - AI和数据驱动方法在私有市场预测方面超越传统风险投资方法,CB Insights的Mosaic评分预测未来独角兽地位的有效性是Smart Money VC中位数成功率的4.7倍[6] 稳定币主流化 - 稳定币生态系统正在成熟,2025年获得融资的稳定币公司中49%处于部署或扩展阶段[7] - 机构对稳定币兴趣达到新高,财报电话会议中提及稳定币次数从2020年的21次激增至2025年的341次[7] - 银行在2025年支持了5家稳定币初创企业,这是自2022年以来的首次,包括花旗风险投资投资BVNK、汇丰银行投资Elliptic等[7] - 2025年稳定币技术并购交易达31笔,比2024年的8笔增长4倍,例如Ripple以10亿美元收购企业软件平台GTreasury,获得了进入120万亿美元企业财务市场的机会[7] - 沃尔玛、亚马逊、苹果、X和Airbnb等科技巨头正在探索发行自己的稳定币或采用加密货币[8] - 企业转向稳定币的驱动力包括即时结算、24/7可用性以及消除交换费用,其即时流动性可提高资本效率,而传统代理银行系统结算可能需要3到7天[8] 数据中心电网角色转变 - AI对电力的巨大需求正对电网造成压力,美国数据中心电力消费预计从2020年的108太瓦时增长到2024年的183太瓦时,并预计2030年达到426太瓦时[9] - 面对电网限制,大型科技公司和AI实验室正在建设现场发电设施,到2030年预计38%的数据中心运营商将使用现场发电作为主要电源,而2024年这一比例仅为13%[9] - 需求灵活性正从可选项变为强制要求,如果数据中心运营商能在1%时间内减少电网需求,当前电力系统可容纳到2035年的数据中心增量[9] - 新兴初创企业如Emerald AI(Mosaic评分741)正在实现电网响应型数据中心,其平台允许AI数据中心动态调整电力使用以支持电网稳定[10] 主权AI兴起 - 各国政府将本地AI发展列为优先事项,2024至2025年间中国启动约84亿美元国家AI基金,日本投资约650亿美元于半导体和AI领域,加拿大推出20亿美元主权AI计算战略,欧盟宣布2000亿欧元的InvestAI倡议,韩国预算68亿美元用于AI发展,印度为本地模型投入3.9亿美元并为计算基础设施设立12.5亿美元的India AI Mission[11] - 英伟达成为主权AI趋势的最大受益者,其2026财年有望实现超过200亿美元的主权AI收入,是去年的两倍多[11] - 自2022年以来,国际公司占英伟达合作伙伴关系的近一半,欧洲占23%,亚洲占18%[11] - 区域AI领导者将主权作为竞争优势,例如法国的Mistral AI强调符合欧洲数据保护标准,加拿大的Cohere强调数据隐私、安全性和监管合规[12] 医疗保健语音AI应用 - 语音AI开发平台已达到商业准备状态,2025年针对该平台的股权交易达创纪录的39笔,较2021年的14笔大幅增长[13] - 79%的私营语音AI公司正在部署或扩展其解决方案,38%处于部署阶段,另外38%在扩展阶段[13] - 领先平台正调整策略以应对医疗保健特定工作流程,例如ElevenLabs专门为美国医疗保健领域招聘企业客户主管,Retell AI的职位描述显示对医疗保健的垂直市场关注[13] - 在2025年最有前途的数字健康公司中,有7家正在部署语音AI代理,医疗保健的电话优先工作流程(如预约、登记、计费)为语音自动化创造了自然切入点[13] - 医疗保健行业面临到2028年美国10万名工作人员短缺,自适应语音代理将帮助提供者用更少资源做更多事情[13] - 信任和安全对采用至关重要,供应商强调人的因素以及安全和合规能力,例如使用专门的“安全主管”模型实时监控对话[14] 世界模型发展 - 世界模型代表AI的下一个前沿,这些系统从视频、图像和模拟中学习物理以预测未来状态,正吸引顶级AI人才[15] - 大型科技公司积极研发世界模型,Meta发布V-JEPA 2和CWM,Google的DeepMind推出Genie 3,英伟达发布Cosmos,微软推出Muse[15] - 构建世界模型需要丰富多模态训练数据,控制独特数据源的公司将拥有竞争优势,例如荷兰游戏平台Medal从1000万月活跃用户每年收集20亿个视频片段[16] - 自动驾驶汽车和机器人成为世界模型的首批商业战场,因为模拟降低了现实世界的风险、成本和部署时间[16] - 财报电话会议中提及“世界模型”的次数从2021年第一季度的几乎为零增长到2025年第四季度的约30次[16] 机器人协同工作 - 随着自动化规模扩大,技术堆栈正走向管理机器人、任务和跨环境流量的编排层成熟[17] - 亚马逊部署了100万个机器人,并部署用于多机器人协调的新基础模型DeepFleet,该模型将机器人旅行效率提高了10%[17] - 学习协调正在大规模取代基于规则的控制,DeepFleet从数十亿小时的机器人数据中学习优化协调[17] - 智能机器人协调将扩展到仓库之外,在工业自动化、多样化环境和国防领域均有应用案例[17] - 处于机器人智能前沿的开发者正推向编排,针对机器人基础模型开发商的股权交易从2021年的3笔激增至2025年的32笔[18] - Physical Intelligence在2025年8月获得3.14亿美元A轮融资,并在9月发布“RoboBallet”研究,该多机器人编排AI模型在轨迹质量上比传统基于规则的方法优25%[18]
烧2万亿美元却难用?Gary Marcus狂喷AI赛道不靠谱:推理模型只是“模仿秀”,OpenAI一年后倒闭?
AI前线· 2026-01-27 11:50
文章核心观点 - 知名AI专家Gary Marcus认为,当前以Transformer架构和大语言模型为核心的AI发展路径存在根本性缺陷,无法实现通用人工智能(AGI)[2][14] - 整个行业在神经网络和大语言模型上投入了1到2万亿美元,但方向本身“毫无道理”,且已进入收益递减阶段[2][14] - 大语言模型本质上是“超级版自动补全工具”,基于统计模式工作,不具备真正的理解、抽象思维和逻辑推理能力,因此存在幻觉、无法应对新情况等根本缺陷[19][29][31] - AI领域缺乏技术壁垒,模型正成为标准化商品,导致价格战和商业模式危机,头部企业如OpenAI面临严重的财务和生存挑战[3][36][38][55] - 要实现真正的突破,行业需要学术思维多样性,并转向构建“世界模型”和结合符号式AI等基础研究,而非仅仅依赖数据与算力的规模化扩张[49][60][66] 对当前AI技术路径的批判 - **技术本质缺陷**:大语言模型的工作原理是预测序列中的下一个内容,本质是统计模式识别和“信息碎片”的黏合,而非真正的思考或理解[19][25][29] - **幻觉问题严重**:模型会凭空编造事实并自信地呈现,例如编造人物养宠物鸡或将洛杉矶出生的人误判为英国人,根源在于其缺乏对世界的真实表征[21][23][24][62] - **无法处理新情况**:模型本质是“功能强大的记忆机器”,其能力受限于训练数据,无法有效应对训练数据之外的新事物、新情况,如特斯拉自动驾驶系统因未训练识别飞机而撞机[31][32][45] - **缺乏系统二思考**:神经网络仅相当于人类认知中的“系统一”(快速、直觉),完全不具备“系统二”(慢速、逻辑、推理)的能力,这是其无法实现AGI的核心原因[13][14] AI行业的商业与竞争格局 - **巨额投资与低效回报**:行业已在神经网络上投入1到2万亿美元,但面临“一圈又一圈的循环融资”和“投资回报率不尽如人意”的局面[2][53] - **技术壁垒消失**:所有AI企业的研发思路基本一致,导致没有真正的技术护城河,谷歌等资金雄厚的巨头能够迅速赶上甚至反超[3][36][37] - **模型商品化与价格战**:大语言模型正成为标准化商品,各家模型差距微乎其微,引发激烈价格战,按token计费的价格已暴跌99%[3][38] - **OpenAI的生存危机**:公司每月亏损约30亿美元,年亏损超300亿美元,尽管近期融资400亿美元,但资金仅够支撑约一年运营,面临被收购(如微软)或倒闭的风险[3][55][58] - **风险投资的扭曲激励**:部分风险投资家热衷于管理费高昂的“规模化扩张”项目,而非推动真正技术进步,加剧了行业泡沫和资金错配[50] AI技术的演进与局限 - **推理模型的局限**:推理模型(如o1)在大语言模型基础上进行多次迭代推敲,在数学、编程等封闭领域表现较好,但成本更高且依然无法应对开放世界的新情况,不具备真正的逻辑分析能力[40][44][45] - **行业暗中转向**:各公司已悄悄放弃纯大语言模型思路,开始融入代码解释器等经典的符号式AI工具以提升模型表现,这印证了神经符号结合路线的正确性[34][35] - **规模化扩张的谬误**:“规模化扩张”理念(即投入更多数据、算力模型就会更智能)被比喻为“万亿磅婴儿谬误”,是一种天真的线性外推,无法解决AI的核心认知缺陷[16][17][66] - **人才流动的信号**:大量人才从OpenAI等头部公司离职创业,表明企业内部人员也清楚并未取得宣称的突破性进展,AGI并非近在咫尺[3][36] 未来发展的方向与建议 - **必须构建世界模型**:脱离“世界模型”(对现实世界结构化的内部表征)的AI系统根本行不通,必须研发能够自主归纳因果规律和世界规则的AI[60][62][65] - **需要学术多样性**:行业应将资源从单一的规模化扩张路径,分散到探索更高效、经济、可靠的新技术方向上,如同投资需要分散配置[49] - **重视基础研究**:当前市场是在为一项远未成熟的技术进行投机性规模化投入,真正需要的是扎实的基础研究,而非指望单纯扩大规模就能实现突破[66][67] - **对AGI的理性预期**:现有技术无法实现AGI,研究显示AI目前仅能完成约2.5%的人类日常工作,其商业价值被严重高估[54]
轻舟智航CEO于骞:智驾市场会留存4-5家企业|36氪专访
36氪· 2026-01-26 13:57
行业现状与公司定位 - 智驾行业正处于微妙的周期交替点,一方面智驾平权走向量产并进入更低价格带,另一方面技术向更大算力、更复杂模型演进以冲击L3/L4 [3] - 公司是上一轮行业淘汰赛的幸存者,其成功关键在于在关键节点做出克制且方向正确的选择,例如早期从L4转向L2量产,以及选择与地平线深度合作而非盲目加入英伟达算力竞赛 [3] - 公司判断智驾市场最终不会走向垄断,大概率会像发动机或电池行业一样留存4-5家头部企业 [6][37] 公司战略与商业模式 - 公司战略核心是“聚焦与取舍”,聚焦软件算法,不涉足不擅长的硬件生产制造,通过合作整合供应链资源 [39][40] - 公司在与车企和芯片厂商的合作中,始终寻求“依赖与独立之间的动态平衡”,避免深度绑定 [4] - 公司与主机厂合作灵活,交付角色可以是Tier1或Tier2,但认为话语权核心取决于谁能创造更稀缺的价值,不过主机厂在行业中话语权最强 [32][33] - 公司明确暂不会涉足传感器、芯片等硬件的大规模生产制造 [41] 技术路线与产品规划 - 公司技术路线的核心优势是“有限资源做最优体验”,不盲目堆算力和参数,聚焦90%用户的核心需求 [8][23] - 公司端到端方案处于预研阶段,预计2026年量产,其单J6M方案的体验自称优于市面上许多已量产的双Orin X方案 [8][12] - 公司产品矩阵分为三档:Air档(高速NOA+主动安全,适配10万元级以下车型)、Pro档(10万级城区智驾,约200TOPS算力)、Max档(大于500TOPS算力,极致城市NOA) [9] - 在技术布局上,以端到端为主,兼顾世界模型与VLA技术;世界模型现阶段主要应用于云端虚拟训练,端侧应用尚未成熟;VLA技术计划与Robotaxi、L4级业务结合落地 [12][14][16] - 公司认为端到端技术拉高了车企自研的门槛,需要人才、算力、数据等多方面投入,成功是小概率事件 [28] 业务进展与市场数据 - 公司乘用车辅助驾驶系统累计搭载量已突破百万台,预计到2026年,量产合作车型数量将超过50款,且几乎全部车型都搭载城市NOA功能 [5] - 2026年规划新增车型超过50款,目前已有30多款车型在供;国内主力方案是地平线J6M(占比超一半),同时布局J6E、高通方案;海外以英伟达、高通方案为主 [9][31] - 公司判断当前全球智驾渗透率不足5%,未来几年将提升至50%,进入10倍增长周期;智驾的正向价值循环要待渗透率达30%-40%后形成,预计1-2年内可实现这一转折 [35] - 公司认为随着行业发展,10万元级别的车型也应该配备城区NOA功能,未来甚至可能具备接近L4的能力 [36] 合作伙伴关系 - 早期与理想的深度合作为公司带来了关键的量产交付方法和产品定义能力 [3][24] - 公司不担心车企自研,反而愿意协助主机厂推进自研能力建设,认为主机厂具备自研能力才能对技术有判断力 [4][26][27] - 公司与地平线是重要的生态伙伴关系,但保持独立,不依赖其算法,只采用其芯片及通用工具链,底层算法等均为自研 [4][30] - 公司同时也是英伟达、高通的生态成员,根据不同市场需求适配方案 [31] 未来业务拓展 - 公司正在延伸业务边界,一方面扩大L2产品布局,另一方面加大对L4的投入,进入无人物流等新场景 [6] - 在无人物流领域,公司与奇瑞合作研发基于车规级标准的无人物流车,已在多个城市运营,目标是先实现物流场景的大规模量产落地,再向Robotaxi推进 [43][44] - 公司认为无人物流行业刚刚开始,市场空间巨大(中国物流车有两千万台量级),其核心竞争力是量产能力和车规级品质 [44][45] - 公司的下一步可能是冲击资本市场 [6] - 长期会布局具身智能及机器人领域,但当前优先聚焦智驾业务及无人物流 [42]
李飞飞世界模型公司一年估值暴涨5倍,正洽谈新一轮5亿美元融资
36氪· 2026-01-26 08:45
公司融资与估值动态 - World Labs正以约50亿美元估值进行新一轮融资,融资规模最高可达5亿美元 [1] - 若融资完成,公司估值将从2024年的10亿美元跃升至50亿美元,实现一年多时间5倍增长 [2] - 此前公司已完成累计2.3亿美元融资,估值达到10亿美元 [3] - 公司成立于2024年4月,当月完成首轮融资,估值约2亿美元 [3] - 2024年6-7月,公司完成由NEA领投的1亿美元融资,估值超10亿美元,跻身独角兽 [6] 投资方背景 - 早期投资方包括Andreessen Horowitz (a16z) 和 Radical Ventures [6] - 后续融资投资方包括英伟达、沙特Sanabil Investments、新加坡淡马锡 [6] - 个人投资者包括Google首席科学家Jeff Dean、演员兼投资人Ashton Kutcher、AI教父Geoffrey Hinton [6] 技术路线与产品 - 公司核心研发方向为“世界模型”,旨在构建能在三维世界中导航和决策的AI系统,即“大世界模型” [6] - 世界模型致力于让AI理解真实物理世界的结构与演化方式,而非仅生成图像 [6] - 公司已推出首款3D世界生成模型Marble,可根据文本或图像提示生成可探索的3D世界 [7][9] - Marble采用3D高斯溅射技术,用数百万计的半透明点表示场景结构,兼顾渲染效率与视觉效果 [9] - 该模型同时输出“碰撞网格”,专用于物理仿真和机器人模拟 [9] - 公司提供Chisel工具,允许用户先用简单几何体搭建骨架,再生成不同风格的细节版本 [9] - 公司近期开放了World API,开发者可通过文本、图像或视频在应用中生成可探索的3D世界 [9] 战略愿景与行业定位 - 公司创始人认为世界模型是实现空间智能的关键,是继大语言模型之后AI下一个十年的核心主线 [10] - 具备空间智能的世界模型需拥有三种能力:生成遵守物理定律的世界、处理多模态输入、预测世界随时间演变或互动的状态 [11] - 世界模型被视为“基础设施型能力”,其影响将扩散至多个方向 [12] - 应用方向包括AIGC(如3D资产生成、游戏世界构建、影视制作)和具身智能(如机器人、仿真环境) [12][13] - 在具身智能领域,世界模型提供对环境的可预测表示,是叠加有效决策与控制的基础 [13] 行业竞争格局 - 世界模型领域存在不同技术路线,前Meta首席科学家Yann LeCun创办的AMI Labs正以约35亿美元估值进行融资 [15] - LeCun的路线采用隐式世界模型,基于联合嵌入预测架构在抽象潜在空间中预测世界演化,而非还原每个像素 [16] - 当前世界模型版图大致分为三层:可观看编辑的世界界面(如Marble)、可反复试错的模拟器、以状态与预测为核心的认知世界模型(如JEPA路线) [18] - 资本押注反映了对不同世界模型技术路径的前瞻性布局 [18]
中信建投:AI多模态和世界模型或重塑多个行业的业务逻辑
智通财经网· 2026-01-26 08:07
核心观点 - 多模态AI技术正从娱乐工具演变为生产力工具,商业化进程加速,并开始重塑下游产业格局 [1] 技术进展与厂商动态 - **全球领先厂商**:谷歌通过Veo、Gemini等系列模型在超长上下文理解与原生音视频融合领域建立壁垒 [2] - **国内头部玩家**:快手可灵、MiniMax海螺、阿里通义万相及智谱等通过架构和技术革新,重点解决了视频生成中的角色一致性失控、物理逻辑崩坏及分镜不可控等工业化生产难题 [2] - **MiniMax海螺AI**:其Hailuo2.3系列模型解决了大动态运镜下的物理崩坏问题,对光影、明暗及物理碰撞的模拟已接近实拍质感,海螺Media Agent可将视频、语音及语言模型封装为统一智能体,支持通过自然语言完成从脚本到视频渲染的全流程 [2] - **快手可灵AI**:其发布的o1模型是首个将多种创作任务整合进统一引擎的视频大模型,在图片参考任务中的胜负比达247%,在指令变换任务中的胜负比达230% [3];可灵视频2.6模型强化了音频同步与动作控制,支持长达30秒的复杂武打动作控制并维持音色一致 [3] - **阿里通义万相**:其2.6系列模型实现了国内首个商业化角色扮演功能,通过提取参考视频特征确保角色一致性,并引入专业分镜控制公式,支持单次生成15秒高清视频,为国内公开测试最高指标 [4] - **智谱AI**:其与华为发布的GLM-Image是首个在国产全栈算力底座上完成全流程训练的SOTA图像生成模型,解决了汉字渲染乱码难题,支持1024x1024至2048x2048任意比例输出,API调用生成一张图片仅需0.1元 [5] 商业化落地与市场表现 - **用户与收入增长**:快手可灵AI的月活跃用户数在2026年1月已突破1200万,截至2026年1月20日,其App端付费用户规模环比增长达350%,1月日均收入较12月日均高出约30% [6];2025年12月可灵单月收入超过2000万美元,2025年全年收入预计达1.4亿美元,其中专业生产者贡献近70% [6] - **应用场景拓展**:AI漫剧成为继短剧之后视频生成应用的新场景,字节跳动等平台通过激励政策推动内容精品化,例如抖音“漫剧创作激励计划”为使用豆包大模型制作漫剧的机构提供15%技术成本补贴,并对S+漫剧提供保底激励5000元/分,单部剧保底50万-75万 [7] - **市场规模潜力**:2025年9月红果短剧月活用户约2.36亿,超过了B站和优酷,接近芒果TV;短剧市场规模今年有望突破千亿,漫剧有望突破200亿 [7] 未来技术演进方向 - **技术路径**:多模态技术一方面向视频、音频、图像、文本统一的原生多模态发展,另一方面向具备物理常识与逻辑推理的世界模型演进 [7] - **原生多模态**:强调AI能在一套框架下对各种模态进行统一处理 [7] - **世界模型**:意味着AI能够像人类大脑一样根据当前画面预测下一帧会发生什么 [7] 下游产业影响与机遇 - **营销领域**:搜索营销可能从SEO、GEO进一步发展为生成式视觉检索,用户可直接获得AI实时生成的定制化视频作为回答 [8] - **文娱产业**:短剧、漫剧呈现快速放量趋势,小说IP与AI视频结合能加速IP影视化进程 [8] - **游戏产业**:生成式AI已应用于美术资产辅助生产,未来在世界模型加持下,实时游戏引擎将成为可能,带来类“头号玩家”的元宇宙开放世界游戏体验 [8]
2025商用具身智能白皮书
艾瑞咨询· 2026-01-26 08:07
行业概述与市场前景 - 具身智能是人工智能的重要发展方向,被普遍认为是实现人工通用智能的重要路径,其核心在于智能体依托物理身体,通过感知—理解—决策—行动的闭环与环境交互并持续学习 [2] - 行业正处于大规模商业化的前夜,全球市场预计将从2025年的192亿元人民币,以未来五年73%的复合增长率快速扩张,并在十年左右达到年万亿级市场需求 [46] - 中国市场增长潜力巨大,凭借完善的工业体系和供应链,预计将在五年左右进入快速降本通道,市场规模将从2025年的21亿元人民币增长至2035年的超过2,800亿元人民币,实现十年百余倍增长 [49][50] - 行业已彻底火热,国外公司Figure AI在营收为零的情况下估值已达390亿美元,国内头部厂家如宇树科技宣称2025年营收将突破10亿元人民币 [1] 技术发展与核心瓶颈 - 模型演进以视觉语言动作模型为核心主线,通过多模态统一框架将大型语言模型的推理能力与真实世界的感知、行动能力深度融合,正逼近类似GPT-3智能爆发的临界点 [21] - VLA模型正持续迭代,从谷歌的RT-1、RT-2到英伟达开源的Isaac GROOT,技术演进方向包括融合更多模态信息以及提升动作生成的泛化能力 [22] - 面对复杂现实场景,混合模型架构是必然趋势,行业共识是通过高层大模型进行认知与规划,同时结合底层成熟算法实现可靠执行,形成“大脑”与“小脑”协同的模式 [23] - 当前发展面临四大瓶颈制约:高质量多模态实操数据稀缺、灵巧手与泛化等技术未成熟、核心部件与算力成本高昂、以及商业回报周期长与伦理安全问题 [13] - 数据是行业发展的关键瓶颈,获取方式依赖遥操作、仿真合成等,但高质量数据依然稀缺,业界正通过建设数据采集训练场等方式探索解决方案 [15][16][19] 商业化路径与趋势 - 商业化正沿着价值阶梯演进,初期将集中在高投资回报率、低复杂度的“确定性”场景,如工业制造、仓储自动化和餐饮零售的基础服务 [31] - 随着技术成熟,应用将向高复杂度、高价值的“战略性”场景渗透,最终实现通用化服务 [31] - 当前主要的商业模式是一次性整机销售,未来可能演进为降低客户前期投入的“机器人即服务”模式,并最终发展至“按任务完成效果付费” [35] - 类比自动驾驶,具身智能的自主程度目前处于L2(自主移动)向L3(低技能操作)的过渡阶段;类比大语言模型,则已达到GPT-2的水平 [27] - 大规模商业化的拐点需要在续航、延迟、执行、可靠性与经济效益五大维度均跨过可用门槛,当前行业正处于从技术验证到价值闭环的关键攻坚期 [29] 竞争格局与玩家分析 - 全球竞争显现出三股核心力量:以Figure为代表的AI原生技术挑战者、以ABB和擎朗智能为代表的场景资源先行者、以及以特斯拉和亚马逊为代表的自带需求的跨界巨头 [55] - 中国已拥有机器人领域最完备、成本最有优势的工业体系和供应链,以及最大的应用市场,国内企业在产业环节覆盖度上已占据显著优势,并在下游整机集成和应用场景上展现出巨大潜力 [39][41] - 行业中期整合趋势不可避免,产品同质化已初现,高昂的研发投入、复杂的供应链管理等挑战意味着最终竞争格局将是少数玩家的市场 [57] - 初创企业需面对传统制造业巨头和互联网巨头的夹击,应凭借灵活创新、快速行动和高效人效寻找生存之道,并找到能带来长期赋能的战略伙伴 [59][60] 政策与资本环境 - 中国已将具身智能纳入国家战略,中央层面密集出台行动方案、发展指导意见与资金支持,地方政府也发布专项规划、设立基金并建立产业联盟以推动发展 [8][9] - 全球资本市场对具身智能投资火热,融资频率与金额齐升,A轮融资额1-3亿美元已是常态,2025年9月Figure AI完成超10亿美元的C轮融资,估值近400亿美元 [43][44] - 中国具身智能企业融资活跃,2025年上半年近亿美元融资达4笔以上,例如宇树科技C轮融资7亿元人民币 [44] 典型企业案例分析 - **Figure AI**:全球通用人形机器人代表企业,估值390亿美元,其产品快速迭代,并引入了自研的通用VLA模型Helix,旨在实现跨场景的复杂任务执行能力 [64][65] - **擎朗智能**:构建了从轮式服务机器人到人形机器人的全产品矩阵,依托全栈自研和全球场景数据积累,在服务场景的综合技术力上领先,并已实现“通用+专用”机器人在智慧酒店等场景的落地 [66][71][73] - **节卡机器人**:拥有丰富的工业机器人产品生态和垂直行业经验,通过庞大的存量设备网络构建了独特的数据优势,并采用分层混合架构推动技术在真实工业场景快速落地 [77][79][81] - **因时机器人**:作为微型伺服电缸的领导者,通过垂直整合自研核心部件,突破了灵巧手在结构、控制和成本上的“不可能三角”,为具身智能提供关键的执行器技术支持 [83][85][88] 全球化与出海 - 2024-2025年,中国具身智能产业进入出海加速期,工业机器人出口额在2024年达到11.3亿美元,同比增长43.22%,市场份额跃居全球第二 [53][54] - 中国厂商在全球商用服务机器人市场出货量占比已达84.7% [54] - 企业出海路径呈现多元化,例如宇树科技以高扭矩关节电机与运动控制算法等技术驱动出海,而擎朗智能则通过产品本地化创新和建立密集的服务网络打开日本等高标准市场 [53][54]
人工智能加速重塑职业图景
新浪财经· 2026-01-26 06:25
人工智能重塑职业图景与就业生态 - 人工智能正在加速重塑职业图景 对劳动者的从业素质提出了新要求[1] - 人工智能技术正在深刻重构就业生态与职业图景 推动劳动者技能结构升级 向更高附加值方向演进 形成以人机协同、智能赋能为特征的就业新范式[2] 新兴职业与岗位涌现 - 从AI训练师、AI产品经理、AI伦理审核员等新职业涌现 到“一人公司”等创业新范式兴起[1] - 从事数据标注的AI训练师、借助AI生成内容的动画师、统筹AI产品全流程的产品经理等新岗位持续出现[1] - 平台已涌现近50类“人机协作”新岗位与40种智能新服务[2] 人才需求与技能溢价 - 对复合型、应用型人才的需求不断扩大[1] - 拥有AI技能的从业人员平均工资溢价达56% 是上年的两倍[2] 人工智能技术范式变革 - 当前 具身智能、世界模型等技术方向加快突破 人工智能正从语言处理走向对物理世界的理解与建模[2] - 行业技术范式正发生深刻变化[2] “一人公司”创业新范式 - AI降低了创业门槛 “一人公司(OPC)”逐渐兴起——一个人借助AI工具即可完成内容生产、产品运营和服务交付[2] - 从苏州提出打造OPC创业首选城市 到多地推出相关社区和支持政策 “单人+AI”的创业模式正加速走向主流[2] - OPC正从个体创作转向具备规模化能力的‘超级个体’ 未来五年 这一形态有望成为数字经济的重要组成部分[2] 人机协作下的核心竞争力 - 在人机协作背景下 人类的想象力、判断力、审美能力、批判性思维和情感互动能力 将成为不可替代的优势[3] - 让AI不仅“懂治病” 更要“懂人”[1] 未来职业与生活方式趋势 - “斜杠”可能是未来人们主要的生活方式之一[4] - 为提升抗风险能力 就要避免单一技能、单一职业依赖 提升综合能力[4] - AI的出现让人们可以快速地进入不同领域 大大缩短从新手到专家的过程[4]
北京形成人工智能闭环式产业生态
北京商报· 2026-01-26 01:18
行业发展阶段与趋势 - 人工智能产业已从最初的技术探索与概念热潮,进入聚焦落地效能的务实发展阶段 [1] - 大语言模型的基础研发步伐趋于平缓,产业重心向应用端加速转移 [1] - 技术演进的一个突出趋势是从单智能体向多智能体系统演进,通过协同配合处理具体场景任务的效果显著优于单一智能体 [1] - 人工智能正加速从数字世界向物理世界延伸,技术从文字信息处理向多模态模型、世界模型升级,着力攻克时间空间认知、物理常识推理等核心难题 [1] 北京人工智能产业生态与规模 - 北京作为人工智能发展的核心阵地,凭借全栈式生态布局为产业发展提供支撑 [1] - 2025年预计北京市人工智能核心产业规模达4500亿元,企业集聚超2500家,两项指标均占全国半数左右 [2] - 领域内上市企业近60家、独角兽企业约40家,国内首个上市的国产人工智能芯片企业和大模型企业、估值最高的人工智能独角兽企业均诞生于北京 [2] - 人才方面,北京入围“AI 2000全球最具影响力学者榜单”的有148人,占全国超40%,AI学者总量达1.5万人,占全国30% [2] 产业驱动因素与未来展望 - 顶层设计提供接地气、全方位的政策支持,叠加从底层算力芯片、中间层技术研发到顶层场景应用的完整布局,形成了闭环式产业生态 [2] - 科研机构、企业与政策层面形成的合力,正推动多智能体等人工智能领域新技术、应用加速突破场景壁垒、迈向商业闭环 [2] - 行业对2026年成为中国智能体爆发的关键之年充满期待 [2]
腾讯研究院AI速递 20260126
腾讯研究院· 2026-01-26 00:01
OpenAI Codex技术进展 - OpenAI预告下周起将发布Codex相关重磅内容,并发布技术博客揭秘其CLI核心架构——智能体循环 [1] - 智能体循环通过Responses API协调用户指令、模型推理与本地工具执行,采用“提示词前缀一致”策略触发缓存以优化性能 [1] - Codex支持零数据保留配置以保障隐私,并利用自动压缩技术管理上下文窗口 [1] 谷歌DeepMind动态4D重建技术突破 - 谷歌DeepMind发布D4RT,将3D重建、相机追踪、动态物体捕捉统一成“查询”动作,速度比现有SOTA快18至300倍 [2] - 核心技术是统一的时空查询接口,AI先全局“阅读”视频生成场景表征,再按需搜索任意像素的3D轨迹、深度和位姿 [2] - 该技术对具身智能、自动驾驶和AR意义重大,但训练仍需10亿参数模型和64个TPU [2] Claude产品功能升级 - Claude Code将内部“Todos”升级为“Tasks”,支持多会话或子代理协作完成跨越多个上下文窗口的长期复杂项目 [2] - Tasks存储在文件系统中便于多个会话协同,当一个会话更新Task时会广播给所有处理同一任务列表的会话 [2] - Anthropic推出Claude in Excel插件,支持Pro、Max、Team、Enterprise用户,基于Opus 4.5模型,能联网搜索并自动填充表格,支持读取公式、Debug错误、从零建模、制作透视表等功能 [6] 百度文心大模型发布 - 百度文心5.0正式版上线,参数量达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频的理解与生成 [3] - 在LMArena文本和视觉理解榜单五次登顶,进入全球第一梯队,语言与多模态理解能力稳居国际领先 [3] - 实测显示模型在复杂情感理解、弦外之音分析、创意写作等文科任务表现突出 [3] AI智能体与开源项目动态 - 开源项目Clawdbot在硅谷爆火,可在Mac mini上运行,兼具本地AI智能体和聊天网关双重身份,通过WhatsApp、iMessage等随时对话 [4] - Clawdbot解决了大模型记忆力痛点,能记住两周前的对话,还会主动推送邮件、日程提醒,并可直接操控电脑执行任务 [4] - 项目GitHub获9.2k星,最低月成本约25美元,用户反馈它能自动管理生意、写代码替代Zapier等付费服务 [4] AI研究新范式与行业观点 - 图灵奖得主LeCun创立的AMI Labs官宣核心方向为“世界模型”,旨在构建理解现实世界、具备持久记忆和推理规划能力的智能系统 [5] - 该路线认为仅靠预测下一个token无法真正理解现实,需在更高层次表征空间进行预测与推理,过滤不可预测的噪声信息 [5] - 谷歌云AI总监Addy Osmani警告“氛围编程”已撞南墙,AI能完成70%前期工作但剩余30%只有经验丰富的工程师能搞定,2026年真正核心竞争力是把模糊问题转化为明确执行意图、设计好上下文结构 [7] 科技巨头对AI发展的预测 - 马斯克预测2026年底前AI将超越人类智慧,到2030年AI将比全人类集体智慧更聪明,特斯拉明年底将开售人形机器人Optimus [8] - 微软CEO纳德拉警告若AI只消耗资源不改善结果社会会失去容忍,黄仁勋称具身智能是“一代人一次的机会” [9] - DeepMind CEO哈萨比斯认为AGI还需5-10年,Anthropic CEO达里奥称只差6-12个月模型就能端到端完成软件开发 [9]