世界模型
搜索文档
马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦
搜狐财经· 2026-01-30 17:25
技术架构与原理 - 项目本质上是一个实时渲染的交互环境,其技术底座由三部分组成:负责图像控制的Nano Banana Pro、负责理解语言指令的Gemini模型,以及负责物理反馈的Genie 3模型[1] - 其机制类似于人类做梦,由计算机构建一个包含视听触觉的沉浸式虚拟世界,允许用户进入互动[3] - 与基于文本统计规律的模型不同,Genie 3本质上是一个“物理世界模型”,它通过观看几百万次物体运动视频,自行学会了重力、惯性等物理规则,而非学习物理公式[3] 产品功能与体验 - 体验方式简单:用户可将照片转换为特定风格的角色并上传,通过输入场景描述(如“沙漠场景”)来生成环境,随后以该角色身份在场景中自由探索[5] - 用户可预览环境并调整视角,使用键盘方向键控制时,系统会实时预测并生成前方的路径和场景,过程类似玩游戏,但用户同时是世界的导演[5] - 目前产品处于开发阶段,单次探索时间被限制在60秒,时间过长会导致画面逻辑崩坏、产生幻觉,且实时生成的计算成本极高[6][8] - 场景可随时通过修改指令进行切换(如从沙漠变为赛博城市),角色的动作逻辑会保留[8] - 有用户试玩反馈存在延迟,自定义提示未生效,只能使用官方预设内容,且物理规律模拟不够准确,穿模或轨迹怪异的情况常有发生[10][11] 行业影响与前景 - 该技术路径被视为“实时视频生成”,未来可能与基于代码的传统游戏引擎分庭抗礼[10] - 行业观点认为,2026年将是世界模型爆发之年,该技术让“普通人在几分钟内生成《GTA6》”这类判断听起来不再遥远[8][10] - 项目的核心野心在于解决AI通往通用人工智能(AGI)道路上的关键瓶颈:数据枯竭与具身智能瓶颈[12] - 互联网高质量文本数据即将耗尽,且机器人无法仅通过阅读学习物理技能,而该项目可作为无限的合成数据生成器,模拟十亿个不同的环境(如厨房、仓库),让机器人在其中积累“肌肉记忆”后再应用于现实[13] - 类似的技术路径还包括蚂蚁灵波开源的LingBot-VA模型,它能在生成画面的同时推演动作序列,提升机器人执行如制作早餐、拾取物品等任务的能力[13] 潜在应用场景 - 在心理治疗与教育领域具应用潜力:例如,生成“满是蜘蛛的房间”帮助孩子在安全虚拟环境下进行脱敏练习;或在历史课上生成18世纪的巴黎街道让学生亲历其境[15] - 尽管目前存在画质粗糙、时长短、延迟高、无法多人联机等问题,但该技术被认为推开了通往物理现实模拟的大门[15]
世界模型竞赛提速:蚂蚁灵波首次开源世界模型 谷歌开放世界模型体验平台
环球网资讯· 2026-01-30 16:38
蚂蚁灵波开源具身智能模型系列 - 蚂蚁集团旗下灵波科技于1月27日至30日连续四天密集开源发布四大核心模型,构建了一套完整的开源具身智能开发套件 [1] - 开源模型包括:空间感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World、具身世界模型LingBot-VA [1][2][3] - 此举标志着长期以来由少数巨头把持的世界模型壁垒,首次被中国科技企业以开源方式撕开关键缺口 [1] 开源模型技术细节与性能 - **LingBot-Depth**:专为提升机器人等智能终端的三维视觉精度与可靠性而设计,在多项国际基准测试中达到领先水平 [2] - **LingBot-VLA**:基于超过2万小时的真实机器人数据预训练,覆盖9种主流双臂机器人构型,仅需少量演示数据即可实现高质量任务迁移,大幅降低下游应用的适配门槛与成本 [2] - **LingBot-World**:在视频生成质量、动态程度、长时一致性等关键指标上媲美谷歌同期发布的Genie 3模型,成功攻克视频生成中常见的“长时漂移”难题,实现了近10分钟的连续稳定生成,并将端到端交互延迟控制在1秒以内 [2] - **LingBot-VA**:首次提出自回归视频-动作世界建模框架,将大规模视频生成模型与机器人控制深度融合,使机器人能够“边推演、边行动” [3][4] - 公司不仅提供了模型权重,更开放了包含数据处理、高效微调、自动化评估在内的全套工具链,旨在为全球开发者提供一个低成本、高性能的“具身数字演练场” [4] 谷歌的应对举措 - 在蚂蚁灵波宣布世界模型开源后不到24小时,谷歌DeepMind宣布面向美国地区18岁以上的Google AI Ultra订阅用户,逐步开放其世界模型研究原型“Project Genie”的体验 [5] - Project Genie基于Genie 3模型构建,是一款网页应用原型,允许用户通过文本提示或上传图像来创建、探索和混合生成交互式世界 [6] - 该原型尚处于早期阶段,存在生成效果不够逼真、操作延迟较高、单次生成时长限制为60秒等局限 [6] - 谷歌此次开放的是受限的体验平台而非完全开源,其核心模型代码并未开源 [6][10] 开源与体验平台背后的战略差异 - 蚂蚁灵波选择了彻底的开源策略,将包括世界模型在内的全套核心技术代码与模型权重向社区免费开放 [7] - 德国财经媒体AdHocNews评论称,LingBot-World能创建用于训练AI智能体的真实数字孪生环境,其性能与谷歌领先模型的性能相当,亮点在于机器人可以在模拟中安全、可扩展且经济地演练复杂场景 [7] - 法国科技媒体PauseHardware认为,LingBot-World若在长时序一致性和控制能力上得到验证,将极大加速实时智能体的发展 [8] - 谷歌目前采取的是一种更为谨慎的“可控开放”策略,通过订阅制面向高端用户开放体验入口,旨在收集用户反馈并控制风险 [10] - 这一差异反映两者不同的生态构建思路:蚂蚁灵波通过开源快速吸引开发者构建应用生态,意在具身智能等新兴领域确立事实标准;谷歌则倾向于在保持核心技术控制力的前提下,逐步探索商业化与普及路径 [14] 行业影响与评价 - 世界模型竞赛正从封闭研发加速转向开放生态的协同演进 [1] - 德国财经媒体AdHocNews评论称,这是在全球机器人领域话语权争夺战中的一项战略性举措,蚂蚁集团正在成为不断增长的人形机器人和物理AI市场中的核心推动者 [1][7] - AI技术评测网站Gaga.art直接对比指出:“LingBot-World在质量上与Google Genie 3相当,同时完全面向开发者开放。” [11] - 行业专家观点认为,此前这类训练环境通常是专有的且成本昂贵,现在每位开发者都能接触到工业标准技术 [14]
2026十大AI技术趋势:应用拓展、模式探索与底层技术齐头并进
搜狐财经· 2026-01-30 09:11
核心观点 - 北京智源人工智能研究院发布《2026十大AI技术趋势》报告,阐述了多模态、具身智能、智能体等AI技术演进新趋势 [1] AI技术演进趋势:世界模型与具身智能 - 2026年业界将进一步探索具备原生架构和物理模拟能力的多模态世界模型,以模拟真实世界规律,解决机器难以处理的问题 [3] - 2025年中国具身智能企业超过230家,其中人形机器人企业超过100家,但2026年该领域可能迎来洗牌 [4] - 具身智能领域存在不同技术路线:“通用开源大模型+运动控制”模式在单场景下仍有空间,但受制于上游基础模型演进;具身小脑方案因适配实际环境困难,距离落地商用较远;报告建议引入世界模型并通过强化学习形成自我进化新路线 [4] - 人形机器人正迈向初步商业化:Tesla Robotics的Optimus 2.5应用于工厂、农场,蚂蚁集团灵波科技的Robbyant-R1应用于餐饮、导览、医疗等领域,业内已出现多笔亿级订单,销量突破万台 [4] AI技术演进趋势:智能体与科学智能 - 从单智能体到多智能体的升级成为必然,多智能体系统能更好适应复杂工作流,并通过自我反思、互相辩论降低幻觉 [5] - 2026年,智能体(Agent)之间的通信协议将逐渐成熟并走向生产实践 [5] - 2025年出现AI Scientist,能自主执行完整科研链路,其背后由科学基础模型、代理工作流、AI认知能力接入自动化实验设施三大技术引擎驱动 [6] - 美国在2025年11月启动“创世纪计划”,以搭建AI实验平台、建立协调与数据共享机制来加速科研 [6] - 中国在AI for Science领域反应滞后,在算力、数据、模型三大基础设施面临挑战:算力储备不及美国;数据共享平台(国家基础学科公共科学数据中心)进展良好;科学基础模型发展滞后 [7] AI应用发展现状与挑战 - 2025年AI个人应用发展迅猛,“多行业API接入+基础模型”模式成为主流,倾向于发展“AI超级应用”提供一站式服务,例如ChatGPT的“Buy it in chatgpt”功能 [8] - AI超级应用需要极高算力支撑并依赖庞大存量用户,对巨头企业更为有利,有望催生AI时代新巨头 [8] - AI行业应用中,对话类AI在客服、代码辅助等场景趋于成熟,但更复杂的自主决策AI Agent应用仍处探索阶段 [8] - 报告预计2026年AI行业应用将迎来“低谷期”,大量探索项目可能因数据质量差、多智能体不成熟、成本高等原因失败,需优先解决数据质量、系统集成与安全问题 [8] 数据资源与AI安全 - 高质量文本数据预计2026年耗尽,低质量文本及视觉数据预计2030年起逐步耗尽,推动技术路线转向“合成数据 + 强化学习” [10] - 中国合成数据市场规模在四年间从11.8亿元跃升至47.6亿元,预计到2030年全球合成数据体量将超越真实数据,成为模型训练主导性燃料 [10] - 合成数据应用案例:特斯拉与清华大学合作研发OccWorld4D,在仿真环境中测试极端路况;科学探索与具身智能领域也将越来越多采用合成数据 [10] - 世界模型与强化学习是生成高质量合成数据的关键,前者是数据生成引擎,后者是降低数据毒性的过滤器 [10] - AI安全性受关注,全球领先大模型在“防范灾难性滥用或失控”方面表现欠佳,基于大模型的Agent增加了更多安全风险 [11] - 业界在2025年开展安全研究,采用基于多智能体系统的自演化攻防演练,并尝试从内部理解AI,例如蚂蚁集团和360构建了各自的安全技术体系 [11]
36氪研究院 | 2026年具身智能产业发展研究报告
36氪· 2026-01-30 07:35
中国具身智能产业发展概况 - 产业在政策引领、技术突破与市场需求共振下进入快速发展新阶段,发展主线已从技术攻关延伸至生态构建与商业闭环,进入价值兑现关键阶段 [1] - 2025年前11个月产业融资额达334.73亿元,是2024年同期的4倍,截至2025年12月21日全年融资事件超305起,总额超380亿元,参与投资机构超600家,资本密集涌入印证产业潜力 [1] - 社会对智能化替代方案的需求日益迫切,驱动因素包括人口老龄化加剧、劳动力结构性短缺以及产业升级对柔性制造和复杂环境适应能力的核心瓶颈 [1] - 中国具身智能产业凭借技术成熟度、产业链完备度与市场拓展速度已处于全球第一梯队 [2] - 国内领军企业已完成从原型开发到规模化量产的工程验证,例如智元机器人在2025年12月宣布第5000台通用具身机器人量产下线交付 [36] - 中国正在形成覆盖关键零部件的自主可控能力,供应链优势明显,关键零部件供应商数量远多于美国,整机成本可控制在海外同类产品的约50% [2] - 国产大模型自主迭代强化了技术独立性,银河通用等头部企业通过自研VLA大模型摆脱对第三方模型的依赖 [36] - 中国具身智能市场规模从2018年的2133亿元迅速增长至2025年的9150亿元,并有望在2026年突破万亿元关口 [2][36] 技术演进与产业链构建 - 具身智能强调智能体通过物理实体与环境交互来实现自主学习和进化,核心在于“感知-理解-行动”的深度融合与持续迭代 [25] - 产业呈现多技术路线并行发展格局,人形机器人被视为长期理想形态,非人形机器人则在垂直场景中率先实现规模化应用 [25] - 技术发展依托大模型、多模态融合与仿真训练等基础技术的系统性突破,推动机器人进入开放复杂的物理环境 [30] - 大模型为具身智能提供通用认知与任务规划能力,视觉-语言-动作大模型的演进使机器人能理解自然语言并自主规划 [30] - 多模态融合与局部运动控制技术的进步提升了机器人在真实环境中的稳定性、安全性和鲁棒性 [30] - 仿真与硬件协同推动系统迭代,基于仿真平台与数据工厂构建的训练数据集加速了端到端模型训练,关键硬件的持续突破提供了协同硬件底座 [30] - 运动控制系统是实现肢体驱动与平衡的关键,上游硬件生态标准化缺失与运动控制技术成熟度不足是制约产品高效集成的核心技术瓶颈 [54] - 行业正从硬件标准化和软件生态化两个方向突破,旨在构建开放协同的产业生态,实现从技术研发到稳定量产的高效转化 [54] 人形机器人发展现状 - 人形机器人是具身智能的主要载体,产业将在2026年迈入规模化放量的关键阶段 [4] - 2025年国内人形机器人出货量达1.8万台,同比增超650%,2026年有望提升至6.25万台,业内乐观预估产量将达10万-20万台级 [72] - 产品价格持续下探,十万台级别的量产规模可期,例如宇树科技“UnitreeR1”起售价仅2.99万元,松延动力“Bumi小布米”预售价格不足万元 [72] - 商业化落地节奏加快,工业领域成为商业化扩张的关键一步,部分企业已收获千台级别订单 [76] - 人形机器人技术本体分为大脑、小脑和肢体三部分,分别对应决策交互、运动控制和感知执行模块 [55][56] - 从成本构成看,一台功能完备的人形机器人中,执行器和传感器合计占比60%以上,是国产替代的主战场 [57] - 执行器系统成本占比约45%,传感器系统占比约15%,结构件与新材料占比约12%,控制系统占比约10% [58] - 核心部件国产化程度分化明显,结构件已近全国产化,电池、控制器国产化率较高,但力传感器、丝杠等高端部件国产化率偏低,依赖进口 [60] - 灵巧手作为末端执行器核心,由驱动、传动、感知三大模块组成,技术趋势朝着更高灵巧性和更强感知能力发展 [65] 下游应用场景渗透 - 具身智能应用持续向工业、服务、特种、交通出行四大领域渗透 [6] - **工业领域**:应用核心从传统自动化转向支持柔性制造与自主决策,在汽车制造、电子电气等场景加速落地 [7] - 汽车及零部件是工业领域最大应用场景,2024年占比43.3%,消费类电子产品和金属及机械加工分别占比19.1%和10.3% [84] - 头部企业从单一产品供应转向开放生态构建,例如智元机器人发布开源仿真平台,北京人形机器人创新中心开展跨行业合作 [84] - **服务领域**:应用覆盖商业、家庭、公共与情感陪伴等,呈现场景精准细分、交互体验拟人化、产品形态轻量化与创新化三大趋势 [7][89] - 商业场景中,服务机器人已实现标准化作业落地,例如在酒店、银行、零售等场景承担具体服务角色 [89] - 家庭与情感陪伴成为新增长点,相关产品实现人机情感交互,开辟办公陪伴等新赛道 [89] - **特种领域**:聚焦极端环境下的任务闭环作业,适配能力持续增强,已在灾害救援、能源巡检、高危维护等场景实现关键突破 [7][91] - **交通出行领域**:发展重心从单一载具自动化迈向系统级协同与立体化生态构建,涵盖自动驾驶、智能补能及低空出行三大方向 [7][91] 市场竞争与未来趋势 - 未来产业将呈现多层次市场格局,市场竞争将升级为技术底座、盈利能力与供应链体系等生态层面的综合较量 [10] - 人形机器人行业市场参与者众多,国内公司如银河通用、宇树科技、智元机器人等估值均已过百亿,构成行业领先阵营 [66] - 2025年中国机器人领域融资中,人形机器人赛道融资金额占比约36%,总融资金额超过百亿元 [66] - 国内公司目前仍以机器人本体研发为主,竞争焦点多集中在硬件层面,专注于人工智能技术研发的企业尚未大规模进入 [67] - 人形机器人发展的核心突破口在于机器人大脑的演进,特别是“世界模型”技术的突破,以实现更高维度的环境理解与自主决策能力 [4][79] - 世界模型需具备生成性、多模态和交互性三项核心能力,其成熟将助力机器人胜任需要环境交互的复杂任务 [79] - 非人形具身智能产品在工业、服务、自动驾驶载具等领域持续深化应用,AI自主化、IT/OT融合、场景细分与轻量化成为主要发展方向 [81] - 具身智能将在世界模型、数据闭环与协作机制驱动下,转化为可规模部署的通用劳动力 [10]
轻舟智航联合创始人、董事长兼CEO于骞:2026年开启无人驾驶黄金10年,10万元级车将普及城市NOA
搜狐财经· 2026-01-29 20:57
行业趋势与拐点 - 2026年被视作无人驾驶黄金10年的开启之年,技术演进正驱动行业跨越拐点 [1] - 端到端架构成为行业共识,VLA模型和世界模型的引入将使自动驾驶系统通过海量数据学习,最终实现超10倍于人类司机的安全水平 [1] - 2026年,10万元级国民车将普遍搭载城市NOA功能,而两年前该体验连许多L4级自动驾驶车辆都未必能达到 [1] - 市场正进入关键拐点,10万元级车型的城市NOA将在2026年迎来大规模上车,市场主力始终是15万元及以下车型,其销量占比预计超一半 [4] - 2025年前三季度,中国具备L2级辅助驾驶的乘用车新车销量同比增长21.2%,渗透率达64% [4] - 2025年1~11月,中国搭载城市NOA功能的乘用车累计销量达312.9万辆,占乘用车上险量的15.1% [4] - 在起售价30万元以下的主流乘用车中,搭载城市NOA功能的车型销量占比超68.9% [4] 技术路径与竞争格局 - 辅助驾驶行业技术底座经历了多次范式迁移,从“激光雷达+高精地图”到“BEV+Transformer”摆脱高精地图,再到“端到端”将辅助驾驶带入AI时代 [7] - 行业在辅助驾驶发展方向上出现了VLA与世界模型的“分歧”,但演进方向已形成明确共识 [7] - 真正的差异化不在于技术概念本身,而在于谁能将其转化为用户可感知的实际价值 [7] - 全行业正快速迈向“端到端”架构,但具体实现效果,尤其在资源效率与体验优化方面将拉开巨大差距 [7] - 用户不会为“VLA”等技术名词买单,在技术路径趋同的背景下,将技术高效转化为稳定、优质的用户体验才是建立真正“护城河”的关键 [7] - 基于工程实践,纯视觉方案已能实现非常好的城市NOA与高速NOA体验,激光雷达更像一个“安全插件”,能在更高级、更复杂的安全场景中提供额外保障 [8] - 智能汽车行业的竞争维度是多元的,包含产业链上下游的竞争与协作,预判2026年行业格局将更趋近于“一超多强” [8] 市场应用与商业化 - 对于智能驾驶新周期的趋势预测包括:城市NOA接管率将至“月”级别,自动驾驶专属保费低于人类驾驶保费50%以上 [1] - 智驾已成为新车标配,呈现两大趋势:车企积极布局L2级以上更高级自动驾驶技术;“智驾平权”加速推进,搭载L2级辅助驾驶功能的车型售价已降至10万元区间 [4] - 百万辆级的搭载量是智能化NOA市场的关键分水岭,目前行业内能够跨过这一门槛的供应商极少 [6] - 成功的产品必须深度理解并贴合当地用户的真实场景与需求,中国的道路环境复杂,且在合规与数据安全等方面有明确要求 [8] 公司(轻舟智航)进展与战略 - 公司联合创始人于骞表示,从2026年开始,公司的业务增长将显著提速 [5] - 截至2026年1月,公司辅助驾驶系统累计搭载量已突破100万台 [5] - 公司的百万台搭载量全部支持NOA功能,已经构成了“强大的数据闭环能力”,这是海量的数据触点,更是实现对真实物理环境广泛覆盖,从而持续驱动系统进化的关键基础 [6] - 公司基于地平线单征程6M芯片的城市NOA方案已实现量产上车,首发搭载于配备AD Pro的理想L系列智能焕新版车型 [5] - 公司方案的优势在于广泛的适配性,全面覆盖新能源汽车(包括纯电、插混、增程),也同样适用于传统燃油车 [4] - 这一兼容性策略为其全球化布局提供了优势,在海外市场,新能源汽车渗透率爬升速度不及中国,但油车基盘庞大,公司能在油车上实现智驾体验对拓展海外市场至关重要 [4][5] - 面对特斯拉FSD或最快于2026年2月入华的消息,公司持开放态度,认为这不仅是竞争,更是在共同做大市场“蛋糕”,并首先向特斯拉致敬,称其在智能化领域做到了行业标杆水平 [3][8]
FUTURUS未来黑科技徐俊峰:侧翼突围,构建AR全栈解决方案|甲子光年
新浪财经· 2026-01-29 20:12
公司概况与市场定位 - FUTURUS未来黑科技成立于2016年,专注于汽车领域增强现实(AR)抬头显示(HUD)技术研发及应用,是中国首批将HUD产品带入量产的企业之一 [3][12] - 公司拥有超过600项国内外专利,是近5年来全球车载AR技术专利数量最多的公司,并获评为国家级专精特新“小巨人”企业 [3][12] - 公司产品已搭载于多款中国高端品牌旗舰9系车型,包括理想L9、蔚来ET9、领克900、极氪9X等,并获得了软银、中金、经纬、凯辉等资本的数亿元投资 [3][12] - 公司的核心业务是利用汽车的智能驾驶和智能座舱系统资源,结合自研光学系统,提供增强现实全栈解决方案 [5][14] 行业瓶颈与公司战略 - 当前AI产业面临瓶颈:To B端因容错率极低而难以规模化,且面临基础模型公司下场抢占应用层业务的风险(“模型即应用”);To C端的订阅制或自然语言搜索模式与传统广告盈利模式冲突,导致商业闭环断裂 [2][5][11][14] - 针对行业困境,公司采取“侧翼突围”战略,即跳出线性思考,将宏大的基础架构难题(如世界模型、物理AI)降维转化为在有限资源下可攻克的中等难题 [2][5][11][14] - 公司认为,以汽车挡风玻璃为介质的增强现实(AR)技术是实现数据闭环、让用户在“无感”中参与强化学习(RLHF)的关键场景和现实选择 [2][6][11][15] 技术路径与产品逻辑 - 从人类视觉生理学出发,公司认为AR技术能调动极具抗干扰性的外周注意力,与榨取核心注意力的手机和实体屏幕相比,用户交互时毫无被打扰的压力 [6][15] - 公司判断,汽车挡风玻璃是2040年以前实现AR技术的唯一现实载体,虽然面临光学和热学开发难题,但其供应链技术已相对成熟,关键在于攻克增强现实的空间光学和空间计算难题 [6][15] - 公司的护城河在于极致的跨界复杂性,通过将前沿物理学与汽车工业深度融合,并嵌入空间计算与AI,构建起硬核且复杂的竞争壁垒 [7][16] 执行策略与竞争优势 - 公司执行层面的基石是寻找愿景高度一致的决策者(创始人最好仍活跃在一线),并组建一支能融合光学、空间计算、汽车系统与AI的顶尖团队 [7][16] - 公司的核心优势在于团队既具备硅谷稀缺的硬科技落地能力,又拥有国内少见的颠覆性创新与顶级战略执行力 [7][16] - 公司当前首要任务是从0到1打造产品,目标是成功落地第一个客户的第一台车,以此启动商业轮盘,认为后续增长将势如破竹 [7][16] - 公司的宏大商业蓝图是赋能车厂,通过AR全栈解决方案开启从产品服务到万亿市值跃迁 [2][11]
2026 年,商业变革者将面对什么?a16z 的最新趋势观察
36氪· 2026-01-29 18:58
垂直AI与多人协作模式 - 垂直AI行业软件在医疗、法律、住房领域实现快速增长,部分公司年化收入达到1亿美元以上[2] - 垂直AI演进路径从信息检索(找到、提取、总结)发展到2025年的推理能力(分析财报、跨系统对账、诊断问题)[2] - 2026年垂直AI将解锁“多人模式”,通过跨角色协调(任务路由、保持上下文、同步变更)解决多方协作问题,使AI智能体能够代表各方(如买卖双方、租户、顾问)在特定权限和流程内协同工作[2][3] - 多人协作模式将提升任务执行成功率,并使协作层本身成为AI应用的网络效应和护城河,增加用户切换成本[3] AI-native教育 - 预计到2026年将出现第一所从底层围绕智能系统构建的AI-native大学,形成一个能实时学习与自我优化的学术有机体[4] - AI-native大学的核心特征包括:课程表自动优化、阅读清单每日更新并随研究重写、学习路径根据学生节奏实时调整[4] - 教授角色将转变为学习架构师,负责策划数据、调优模型并教导学生质询机器推理[4] - 评估方式将转向AI感知型评价,重点评判学生如何使用AI,而非是否使用AI,透明且审慎的AI应用将成为新标准[4] - 这类大学旨在培养精通AI系统编排的人才,以助力劳动力结构快速转型,成为新经济的人才训练场[4][5] - 已有前兆出现,如亚利桑那州立大学与OpenAI的全校合作催生了数百个AI项目,纽约州立大学已将AI素养纳入通识教育要求[4] Agent-native基础设施 - 到2026年,企业基础设施面临的最大冲击来自工作负载变化:从面向人类、低并发的访问模式转向由智能体驱动、递归触发、突发且大规模的新型负载[6] - 传统后端系统围绕人类1:1操作模式构建,无法应对智能体在毫秒级别触发数千个子任务、查询和API调用的需求,常被误判为异常流量或DDoS攻击[6] - Agent-native基础设施需要重新设计控制平面,将“惊群效应”视为默认状态,大幅缩短冷启动时间,压缩延迟波动,并将并发上限提升数个数量级[7] - 真正的竞争瓶颈转向协调问题(路由、锁、状态管理、策略执行),最终具备竞争力的是能承受高频工具调用与复杂并发协调的平台[7] 多模态与视频内容创作 - 2026年可能是AI真正实现多模态创作的一年,创作者可将任何形式的参考内容(如图像、视频、声音)提供给模型,与之协作创作新内容或编辑现有场景[8] - 早期多模态产品已出现,如快手的Kling O1和Runway的Aleph模型,但模型层与应用层仍需持续创新[8] - 内容创作是AI最具杀伤力的应用场景之一,预计将诞生多个成功产品,覆盖从表情包创作者到好莱坞导演的不同用户群体[9] - 到2026年,视频将变成可“进入”的空间,视频模型能够理解时间、记住内容、对用户行为作出反应并保持长时间连贯性,使视频成为一种可被“构建”的媒介[10] - 这种转变让视频成为机器人训练、游戏演化、设计原型和智能体实践学习的“活的环境”,弥合感知与行动的鸿沟[10] AI应用价值衡量与商业模式 - 随着AI应用发展,以“屏幕时间”作为价值交付核心指标的时代将终结,基于结果定价和对齐供需激励的模式将兴起[11] - 现实变化已出现:例如使用DeepResearch查询、Abridge自动记录医患对话、Cursor自动开发应用、Hebbia生成路演材料等工具,在用户几乎不看屏幕的情况下交付巨大价值[11] - 挑战在于需要更复杂的ROI衡量方式,涉及医生满意度、开发者效率、金融分析师身心状态等,能够清晰阐述ROI的公司将持续领先[11] 世界模型与交互式叙事 - 到2026年,由AI驱动的世界模型(如Marble、Genie 3)将通过交互式虚拟世界和数字经济彻底重塑叙事方式,能根据文本生成完整的3D环境供用户探索[12] - 这些工具将催生全新的叙事形式,甚至演化为由玩家共同构建的“生成式Minecraft”宇宙,模糊玩家与创作者的边界[12] - 互联的生成式多重宇宙可能出现,不同题材并存并繁荣数字经济,这些世界还将成为训练AI智能体、机器人乃至AGI的高价值模拟环境[12] 个性化系统 - 2026年将成为“属于我的一年”,产品趋势从为大众批量生产转向为个体“你”而打造[13] - 在教育领域,像Alphaschool这样的公司正在打造根据每个学生节奏与兴趣调整教学的AI导师,提供以往需数万美元辅导费用才能实现的个性化体验[13] - 在健康领域,AI能根据个体生物特征设计补剂、训练与饮食方案;在媒体领域,AI让创作者将内容重混为符合个人兴趣与语气的内容流[13] 自主科学发现 - 随着多模态模型能力与机器人操控能力提升,将加速推进“自主科学发现”,催生能够闭环完成从提出假设、设计执行实验到推理产出的自主实验室[14][15] - 构建这类“熄灯实验室”需要融合AI、机器人、物理与生命科学、制造、运营等多学科专长,实现持续实验并在多领域推动连续性科学发现[15] AI应用分发与消费市场 - ChatGPT凭借9亿用户、OpenAI Apps SDK、苹果mini-app支持及群聊功能,正成为AI“应用商店”和新的原生分发渠道[16] - 这一新渠道预计将在2026年引爆一次“十年一遇”的消费科技淘金潮,为消费级开发者提供直接触达海量用户的增长机会[16] 语音智能体与企业集成 - 语音AI智能体已从科幻走向现实,被成千上万家企业用于预约、预订、调研等信息采集工作,为企业节省成本并创造收入[17] - 未来趋势是语音智能体从处理单点电话场景扩展到处理完整的多模态工作流,甚至管理完整的客户关系周期[17] - 随着底层模型进步,智能体将更深度集成到企业系统并被赋予处理更复杂互动的自由度,运行“语音优先”的AI产品优化关键业务环节将成为普遍选择[17] 主动式AI应用与工作流 - 2026年,主流AI应用的可见提示词输入框将走向终结,下一波应用将主动观察用户行为并介入给出行动建议(如IDE提前提出重构方案、CRM自动起草跟进邮件)[18] - AI将成为嵌入每一个工作流的“无形脚手架”,由意图驱动而非指令驱动,聊天界面只是过渡阶段的“辅助轮”[18] 企业多智能体系统与组织变革 - 到2026年,企业将从孤立的AI工具转向需要像协同数字团队一样运作的多智能体系统,共同管理复杂、相互依赖的工作流[19] - 《财富》500强企业将最强烈地感受到这种变化,将割裂的数据、机构知识和运营复杂性转化为自治“数字员工”的共享底座,以实现更快决策和端到端流程[20] - 这一转变将催生新的职能角色,如AI工作流设计师、智能体监督员、治理负责人,并需要全新的“协调系统”层来管理多智能体互动和确保可靠性[20] 消费级AI向连接性转变 - 2026年主流消费级AI产品将从“生产力”转向“连接性”,AI不再只是帮助完成工作,而是帮助用户更清晰地看见自己并建立更强人际关系[21] - 随着多模态上下文窗口扩大和推理成本下降,AI产品可以从用户生活的“完整纹理”(如相册、沟通模式、日常规律)中学习,而非仅从聊天记录学习[21] - “看见我”类产品依靠持续连接带来日常使用,其使用模式比解决具体任务的“帮助我”类产品更具粘性,尽管单次愿付费可能更低[21] AI研究辅助与工作流 - AI正更广泛地用于研究,尤其是在推理密集领域,模型不仅能辅助发现,还能自主求解高难度数学问题[22] - AI研究预计将催生并奖励一种新的“博学者式”研究风格,强调对思想之间关系的猜想能力,并能从猜想性答案中迅速外推,有时能利用“模型幻觉”打开新发现[22] - 这种研究需要“agent包裹agent”的多层模型工作流,以及模型间更好的互操作性和识别补偿贡献的方法,加密技术可能有助于解决后者[23] 数据隐私与访问控制 - 当前大多数数据管道(模型输入与输出的数据流)不透明、可变且不可审计,这在金融、医疗等需要保护敏感数据的行业成为阻碍[24][25] - 缺乏数据访问控制迫使主体使用中心化服务或自建定制方案,耗时昂贵且阻碍释放链上数据管理的收益[25] - 解决方案是发展“秘密即服务”,提供可编程、原生的数据访问规则、客户端加密和去中心化密钥管理,强制规定解密权限、条件和持续时间,并结合可验证数据系统将其变为核心基础设施[25] AI初创公司竞争策略 - 当前处于前所未有的公司创建时期,初创公司若想在分销上超越积极采用AI的老牌企业,有效策略是从公司成立之初就为其提供服务,并与新客户共同成长[26] - Stripe、Deel、Mercury、Ramp等公司都遵循了服务初创公司并伴随其成长的策略,Stripe的许多客户在公司成立之初甚至还不存在[26] - 2026年,从零开始服务初创公司的企业将在众多软件领域实现规模化发展,关键在于打造更好产品并全力开发尚未被现有厂商束缚的新客户[26]
世界模型混战,蚂蚁炸出开源牌
AI前线· 2026-01-29 18:07
蚂蚁灵波发布开源通用世界模型LingBot-World - 蚂蚁集团旗下具身智能公司蚂蚁灵波正式发布并开源其通用世界模型LingBot-World,全面开源代码和模型权重,且不绑定任何特定硬件或平台 [2] - 该模型沿袭了DeepMind Genie 3的路线,能够根据文本或图像提示实时生成可探索的动态虚拟世界,并在交互能力、高动态稳定性、长时序连贯性及物理一致性方面取得突破 [2] - 模型呈现出从“生成”到“模拟”的跨越,随着规模扩大,涌现出对空间关系、时间连续性和物理规律的理解 [2] 模型核心能力与性能表现 - 模型展现出对基础物理机制的理解,例如鸭子蹬水动作、水面对扰动的响应及身体与水的相互作用符合物理规律,显示出对流体力学和因果关系的理解 [3][4] - 模型具备持久记忆能力,当用户切换视角再回归时,环境中的智能体仍能保持记忆并持续行动,确保世界状态自然推进 [5] - 模型遵循空间逻辑,智能体运动具有物理合理性,例如碰到沙发后不会穿透而是向空地走去 [6] - 模型能够生成长达9分20秒的未剪辑连贯视频,在近十分钟内保持较稳定的物理状态和视觉质量,尽管在视频后期存在建筑位置关系被遗忘的细节瑕疵 [7] - 单次生成接近10分钟的连贯视频,刷新了当前视频/世界模型的长度纪录,作为对比,Veo 3、Sora 2、Runway Gen-3 Alpha和Kling的单次生成上限分别为8秒、25秒、40秒和2分钟 [8] - 在提供720p分辨率并保证高动态程度和长生成跨度的同时,保持了开源特性 [8] - 在VBench测试中全面领先于Yume-1.5和HY World-1.5等先进开源模型,证明其不仅是视频生成器,更是强大的交互式模拟器 [9] - 具体VBench得分:成像质量0.6683,美学质量0.5660,动态度0.8857,运动平滑度0.9895,时间闪烁0.9648,整体一致性0.2178,各项指标均优于对比模型 [10] 行业背景与技术路线 - 大语言模型在理解物理世界、因果关系方面存在局限,世界模型被视为AI走向真实物理世界深度理解的一个解决方案,吸引了Google、李飞飞、Yann LeCun等众多科学家和公司的关注 [10] - 行业对“世界模型”尚无统一标准,存在路线分歧,例如李飞飞的Marble专注空间关系,英伟达细分为预测、风格迁移、推理模型,DeepMind的Genie 3追求端到端实时渲染 [11] - 蚂蚁灵波的世界模型方案更接近Genie 3,旨在成为一个通用模型,为Agent、具身智能、游戏、仿真等领域提供理解世界物理规律的基础设施平台 [11] - 世界模型的研究可追溯至1990年Richard S. Sutton提出的Dyna架构,其核心理念是为智能体提供“模拟经验”的内部环境以进行规划和训练,这一理念延续至今 [15][18][19] - 当前世界模型技术路径主要分为生成式和非生成式两类,核心区别在于预测空间 [23] - 生成式路径代表如NVIDIA Cosmos、DeepMind Genie和World Labs,使用像素观测空间或带位姿的3D帧进行预测 [24] - 非生成式路径代表如Yann LeCun的联合嵌入预测架构,在潜空间内预测未来抽象表征,无需像素级重建 [24] - 蚂蚁灵波的LingBot-World选择了类似Genie的生成式路径,并试图解决从视频生成到世界模拟之间的技术障碍 [25] 模型技术细节与构建 - 模型构建了一个从采集、处理到标注的数据引擎,以解决“动作-反馈”因果闭环数据稀缺的瓶颈 [28] - 训练数据包含通用视频、游戏数据和由Unreal Engine生成的合成渲染数据,以确保语料的丰富性、高质量和交互性 [29] - 数据处理流程包括质量筛选与切分、借助VLM和几何标注生成元数据,并引入三种不同粒度的描述标注 [30] - LingBot-World将世界模型定义为一个条件生成过程,模拟由智能体动作驱动的视觉状态演化 [31] - 模型的目标函数是最大化给定历史帧和动作序列条件下预测下一帧状态的似然概率,本质是一种概率预测 [32][33][34] - 采用分阶段训练策略:预训练建立通用视频先验;中训练注入世界知识和动作可控性;后训练使架构适应实时交互,实现低延迟和严格因果性 [36] 应用潜力与生态意义 - 模型提供了一个高保真的物理交互沙盒,可作为具身智能、自动驾驶与虚拟现实等下游任务的通用基础设施 [39] - 支持通过自然语言控制模拟过程,如改变环境季节、时间或整体风格,并能在场景中精确注入特定物体 [39] - 在自动驾驶训练中,可低成本构建“鬼探头”、极端天气等严苛因果推理环境,以解决长尾问题 [43] - 模型展现的长程记忆和3D一致性,使得生成的视觉信息可直接转化为场景点云,服务于3D重建或高精度仿真任务 [43] - 其10分钟级别的生成能力为机器人等多步骤任务提供了更稳定的物理一致性,有助于在虚拟环境中进行高频次、深度、低成本试错 [44] - 与视觉-语言-动作模型LingBot-VLA结合,可勾勒出“内部模拟器”的具身大脑闭环方案,在虚拟空间中先行演练动作轨迹并评估物理后果 [44] - 利用相同训练数据,团队还微调出了动作智能体,能在生成的世界中自主规划并执行动作,实现智能体与环境的实时互动 [44][45] - 这表明世界模型未来不仅是训练工具,也有可能成为驱动智能体的底座 [46] - 通过开源训练方法、模型权重等,公司展示了其在具身智能领域的战略布局,为行业提供了探索世界模型更多可能性的契机,并帮助降低验证门槛 [12] - 蚂蚁灵波近期集中发布并开源了空间感知模型LingBot-Depth、具身大模型LingBot-VLA及LingBot-World,目标在于打造一个开放、通用的智能基座,与行业共建生态 [12]
蚂蚁深夜开源比肩Genie 3的世界模型,我也看到了具身智能的未来。
数字生命卡兹克· 2026-01-29 10:06
文章核心观点 - 蚂蚁集团旗下的灵波科技(RobbyAnt)开源了其世界模型LingBot-World,该模型在长时记忆稳定性、风格泛化性和动作代理能力方面表现卓越,被认为在质量上可对标Google的Genie 3,是AI领域一项重大且出人意料的进展 [3][8][34] - 该模型与Sora等传统视频生成模型有本质区别:它是一个可实时交互、按指令动态生成世界的“模拟器”,而非预先渲染好的“电影”,代表了“世界的起点” [25][28][31] - 世界模型是AI从虚拟走向现实、实现具身智能的关键技术,其成熟将推动井喷式的具身智能应用进入实体世界,而蚂蚁集团的开源行为加速了这一进程 [96][97][99][103][105] 模型发布与基本信息 - 发布方为蚂蚁集团旗下的具身智能公司灵波科技(RobbyAnt),模型在毫无预兆的情况下突然开源 [3] - 模型已在GitHub上开源第一个版本,并计划发布另外两个版本 [37] - 模型参数量约为28B,推理参数量约为14B [44] 技术特点与性能 - **长时记忆稳定**:模型能保持场景的长期一致性,避免“鬼打墙”现象,例如在10分钟的古建筑探索视频中场景未崩塌,且物体位置和遮挡关系随视角变化保持正确 [19][55][57][58] - **风格泛化性极强**:模型能同时处理超写实、游戏画风等多种风格,这得益于其训练数据混合了真实视频、游戏录像和UE合成场景 [64][66][68] - **优秀的动作代理能力**:模型支持通过方向键(WASD)或动作指令进行实时控制,并能结合AI代理实现角色在生成世界中的自主运动、规划和避障,超越了简单的“步行模拟器” [75][77][79][82][86][89] 模型版本与规格 - **LingBot-World-Base (Cam)**:已开源,支持通过相机位姿信号控制镜头运动(如推进、环绕),提供480P和720P推理配置 [39][40] - **LingBot-World-Base (Act)**:待开源,支持通过动作指令控制主体行为,将可控性从镜头扩展到行为层面 [41][42] - **LingBot-World-Fast**:待开源,专注于低延迟与实时交互,目标延迟低于1秒,帧率可达每秒16帧,但图像质量可能略低于Base系列 [43] 行业意义与定位 - 该模型与Google Genie 3技术路线一致,属于可实时生成的世界模型,填补了Genie 3发布后数月内该领域的空白 [32][34] - 世界模型对游戏、影视、娱乐行业有重要意义,其核心应用场景是为具身智能提供低成本、高保真的训练和试错环境 [96] - 蚂蚁集团此次开源世界模型,将相关技术进程向前推进了一大步,并选择开源以造福整个行业 [99][100]
五一视界(6651.HK)物理AI的“左右互搏”:世界模型与VLA的闭环进化论
中金在线· 2026-01-28 10:39
物理AI的发展趋势与核心突破 - AI技术正取得三大突破:从聊天到干活的智能体、开源模型降低门槛、物理智能理解客观自然世界 物理智能展现出AI开始理解蛋白质结构、化学分子、流体力学等自然科学规律 这被认为是AI的下一波浪潮[1] 物理AI的核心技术范式:VLA与世界模型协同 - 为加速AI理解、重建和生成物理世界,需依赖世界模型这一利用AI训练AI的新工具[2] - 行业共识认为,单纯依赖真实机器人数据采集不够 正在见证VLA模型或VA模型与世界模型双模型协同的新范式崛起[2] - VLA或VA模型担当负责感知、推理和行动的大脑 世界模型充当负责推演和想象的场景模拟器[2] VLA与世界模型协同的价值与路径 - VLA+世界模型是解决物理AI中具身智能数据饥渴和物理安全性矛盾的最优解 真实机器人数据采集较贵、较慢、有危险[3] - 世界模型能生成无穷无尽的仿真数据 可低成本生成各种情景甚至反事实场景 为VLA提供细节丰富的训练场[3] - 斯坦福大学李飞飞教授提出空间智能是连接数字与物理世界的桥梁 世界模型应生成具备3D几何一致性、物理互动性的可操作世界 VLA在此训练才能真正理解物理规律[3] - 协同进化工程化落地分为四个阶段:冷启动、接口对齐、在仿真场景中训练、虚实迁移与校准[4][5] 解决生成式模型物理常识缺失的关键技术 - 需警惕生成式模型在长时间序列预测中的一致性幻觉 如物体突然变大或穿透[6] - 解决对策:引入3D几何、材质等约束 结合3DGS等技术 确保生成的物体在三维空间中守恒[6] - 公司日常训练中将3DGS技术与3D几何图形引擎融合 形成3DGS混合仿真引擎 使虚拟环境物理特性与真实环境保持一致[6] - 为判断任务成功 需训练配套的奖励模型作为裁判 查看生成场景并给出分数反馈[6] - 为解决世界模型推演速度瓶颈 可采用潜一致性模型等加速技术 将预测从像素级转移到特征级 速度可大幅提升[6] 数据共享与互补的最佳实践 - 世界模型训练需要输入真实数据与合成数据[7] - 共享视觉底座:VLA和世界模型的视觉编码器可共享权重或联合训练 以节省显存并保证对世界特征的同频理解[7] - 反事实数据生成:利用世界模型生成假设性失败案例数据 让VLA学习从未经历过的失败 提升鲁棒性[7] - 数据配比:建议发展初期按照真实数据与合成数据1:9的比例混合使用 真实数据用于校准物理规律 合成数据用于拓展多样性[7] 物理AI的演进方向与未来应用 - 世界模型未来需直接生成4D的交互式环境 VLA将在完全三维的动态可交互环境中训练[8] - 在公司的"数字孪生工厂"中 利用物理AI可在虚拟产线调试机械臂、应对异常 再同步到实体工厂执行[8] - 构建动态"虚拟训练场" 使人形机器人在部署前学会应对数千种突发状况[8] - 实现快慢系统默契配合:VLA处理毫秒级实时反应 世界模型处理长程规划 当VLA遇难题可呼叫世界模型推演方案[8] - 最终VLA和世界模型可能合并为一个大一统模型 输入观测时既能预测下一个动作也能预测下一帧状态[9] - 未来应用包括:机器人管家、模拟火星环境中自主作业的工程车、在药物研发中推演蛋白质折叠与分子互作的"虚拟实验室"[10]