世界模型
搜索文档
腾讯加码空间智能大模型,这一赛道正在成为下一个风口
首席商业评论· 2025-08-09 12:17
腾讯混元3D模型的技术突破 - 腾讯在2025世界人工智能大会上正式发布并开源「混元3D世界模型1.0」,支持通过文本或图像生成完整3D场景,具备360°沉浸式漫游、资产导出为标准mesh格式等功能,实现从"AI能画"到"人能用"的跃迁 [3] - 该模型在Hugging Face平台下载量已超过230万,成为最受欢迎的3D开源模型之一 [3] - 混元3D模型从"重建一个物体"升级到"生成一个场景"再到"理解一个世界",目标是生成创作者可直接使用的可交付资产 [5] - 在生成质量上全面超过SOTA开源模型,包括纹理细节、美学质量、指令遵循等评价维度 [7] - 采用创新的"2D+3D结合"混合路线,既保持空间结构稳定性又丰富交互动态效果,解决了纯3D生成多样性不足和纯2D视频生成空间不稳定的问题 [8] 混元3D模型的应用价值 - 对游戏开发者是生产力革命,可将场景搭建时间从数周/月缩短至一句指令生成原型,极大降低试错成本并提升资产生产效率 [9] - 对普通3D爱好者彻底降低创作门槛,无需专业建模软件即可创造虚拟世界并导入Vision Pro等设备体验 [9] - 支持基于文本/图像输入生成360度沉浸式三维场景,如输入"一个破旧的加油站,夜晚下着雨,远处有霓虹灯"即可构建完整空间环境 [8] - 生成的世界支持自由漫游交互,具有空间连续性,解决了同类模型视角丢失和缺乏连续性的痛点 [8] 空间智能与世界模型的发展 - 空间智能被认为是AI下一个创新重要节点,让机器理解三维物理世界,实现"我看、我动、我思"的融合 [11][12] - 世界模型是通用智能体的必要条件,能进行内部模拟、计划调整和跨模态推理,体现具身智能的高级阶段 [13] - 谷歌DeepMind研究证明,任何能完成复杂任务的通用AI体内部必然编码了世界模型,AI能力上限取决于世界模型的保真度 [13][14] - 行业巨头纷纷布局:英伟达推出Cosmos世界模型,谷歌DeepMind组建专门团队并发布Genie 3,李飞飞创立World Labs等 [14] 腾讯的AI战略布局 - 2024年腾讯AI相关资本开支达767亿元,同比增长221%,计划2025年进一步加大投入占收入十几个百分点 [24] - 混元大模型形成完整梯队,从0.5B-7B小模型到52B大模型和MoE架构模型,覆盖端侧到云端 [24] - 混元TurboS在全球权威评测中排名前八,理科推理提升超10%,代码能力提升24%,竞赛数学成绩提升39% [24] - 在B端升级"腾讯云智能体开发平台",整合RAG技术和Agent能力,帮助企业激活私域知识构建专属智能体 [26] - 通过乐享知识库等产品帮助企业实现知识管理数字化,案例显示科沃斯应用后营销效率显著提升并节省百万运营成本 [27]
对话千寻智能高阳:科学家创业不太「靠谱」,但创业就像一场游戏
36氪· 2025-08-08 17:28
具身智能行业趋势 - 具身智能领域正经历技术范式转变,ChatGPT的出现推动了学习范式的革新,使得具身智能成为必然发展方向[13] - 行业现阶段普遍采用Transformer做预训练,但工程化后期效果将出现显著分化[34] - 预计四年后将进入Robot GPT3.5阶段,机器人能完成70%的家庭场景任务[41] 千寻智能商业模式 - 坚持软硬一体化路径,定位为"具身智能领域的苹果"而非安卓[10][11] - 成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等[7] - 技术路线强调VLA(视觉语言动作)模型创新,独创快慢系统提升动作流畅度[37][46] 技术研发重点 - VLA模型采用95%互联网人类视频数据预训练,显著提升泛化能力[58][61] - 算法创新包括任务分解能力(one two VLA)和动作tokenizer优化[40][45] - 现阶段世界模型仅小规模应用,分层技术路径将被端到端方案淘汰[49][50] 行业竞争格局 - 头部机器人公司仍聚焦硬件和教育市场,忽视"大脑"开发[14] - 同质化Demo现象普遍,叠衣服等复杂任务成为技术能力试金石[56] - "伯克利四子"分别专注不同技术方向:运动控制、操作交互、3D感知等[63][65] 数据策略差异 - 反对现阶段大规模建设数采工厂,认为跨本体数据迁移效率低[53] - 互联网数据价值在于提供多样性,遥操作数据确保物理世界精确性[59] - 数据清洗和配比直接影响模型性能,当前泛化能力提升率达60-80%[61] 人才战略 - 偏好年轻科研人才(硕士/博士),要求具备前沿技术敏感度[71][72] - 算法岗更看重近期学术成果而非工作经验,因技术迭代速度过快[72] - 团队构建强调"少而精",需同时具备研究能力和工程化思维[70]
对话千寻智能高阳:科学家创业不太“靠谱”,但创业就像一场游戏
36氪· 2025-08-08 09:49
公司战略与定位 - 千寻智能采用软硬一体模式,定位为具身智能领域的"苹果"而非"安卓",强调技术初期必须整合硬件与软件能力[5][6] - 公司成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等头部机构[4] - 创始团队为学术与产业组合:高阳为AI科学家,韩峰涛为硬件专家,曾操盘数万台机器人量产[3][7] 技术路径与创新 - 核心VLA模型采用快慢系统技术,实现动作流畅性(如叠衣服甩动动作),4个月前完成开发[35][36] - 独创one two VLA架构,支持复杂任务自主分解(如"手机放抽屉"需3步骤)[31] - 95%训练数据来自互联网人类视频,提升跨品类泛化能力(如折叠机识别无需额外训练)[46][47] - 现阶段暂未大规模投入世界模型研发,认为强化学习环节成本过高[37] 行业竞争格局 - 判断市场难以容纳第二家软硬一体公司,头部企业倾向固守教育细分市场[9][11] - 反对大规模数采工厂模式,认为机器人形态未定型导致数据迁移价值打折[41][42] - 叠衣服成为行业标准测试场景,因其需应对千变万化的物体形态[44] 技术发展阶段 - 预测4年后进入Robot GPT3.5阶段,任务完成率达70%(如家庭场景取水)[32] - 当前VLA存在语言模块过载问题,需优化数据利用(人类视频预训练)与架构设计[33][34] - 泛化能力仍处初级阶段,但互联网数据可使新物体识别提升60%-80%[48] 人才与研发管理 - 招聘偏好顶尖院校硕士/博士,需发表过机器人领域论文但无需工作经验,因技术迭代过快[52] - 自动驾驶与机器人技术本质相似,差异在于本体成熟度与安全容错标准[53] 产品验证标准 - 提出机器人性能评估方法论:观察跨品类操作(衣物品类切换)、动作流畅度(卡顿检测)、抗干扰能力(衣物团扔测试)[3][25][29]
当AI“看见”世界,商业的未来正在被彻底重塑 | 两说
第一财经资讯· 2025-08-07 19:15
文章核心观点 - 人工智能技术正从数字领域向物理世界扩展 驱动多行业变革 涵盖劳动力市场 航天基础设施 机器人产业 内容创作和全球治理体系[1][5][7][9][11][13] - AI发展重点从提升智能水平转向构建空间感知与物理交互能力 世界模型成为关键方向[9] - 内容产业面临效率革命 AIGC使创作效率提升10倍 三万亿美元市场规模将重构[11] AI对劳动力市场影响 - AI从接管重复性工作转向协作创造性脑力劳动 电视脚本编写等岗位可能在5年内被替代[5] - 不具备AI应用能力的从业人员将首先被淘汰 影响范围从基层快递员延伸至金融分析师等专业岗位[5] 航天基础设施智能化 - 北斗系统通过AI赋能实现定位导航授时功能升级 精度和响应速度提升[7] - 卫星系统应用场景从导航扩展至洪水救援调度 城市交通信号优化和车道级路径规划 形成千亿级产业规模[7] 机器人与空间智能发展 - 世界模型技术推动AI从数字语言处理转向物理空间感知 成为机器人产业核心基础[9] - 应用场景覆盖森林火灾预警和集装箱智能装卸等复杂环境任务[9] 内容产业变革 - 多模态AI实现电影级画面生成 扩散模型技术降低视频制作门槛[11] - AIGC使创作者效率达到传统方法的10倍 电影制作周期缩短至数月[11] 技术治理体系构建 - AI治理核心挑战从技术能力建设转向伦理控制 防止系统自主性风险[13] - 全球协作治理机制正在形成 中国开始参与国际规则制定[13]
当AI“看见”世界,商业的未来正在被彻底重塑 | 两说
第一财经· 2025-08-07 18:20
AI与未来商业 - 五位顶级科学家在2025世界人工智能大会特别节目中探讨AI如何重塑商业未来 包括图灵奖得主杰弗里·辛顿 北斗三号总设计师林宝军 多模态AI先锋梅涛 世界模型探索者申恒涛 中国计算机之父姚期智 [1][3] - AI不仅接管重复性工作 更成为创造性脑力劳动的合作者 不懂AI不用AI的人将首先被淘汰 [7] - AI正从数字世界向物理世界拓展 带来从"字节"到"空间"的范式转变 [13] AI对劳动力市场的冲击 - AI可能在5年内完成电视节目脚本写作等创造性工作 [7] - 从快递员 收银员到金融分析师 节目编剧 多个职业将被AI重构 [7] AI赋能北斗产业 - 中国北斗系统具有站得高 看得远 精度更高的优势 [10] - AI赋能PNT体系后 北斗将实现精准调度洪水救援 城市红绿灯优化 车道级出行规划等功能 [10] - AI推动卫星系统向"高精度 低延迟 全感知"的产业进化 [10] 世界模型发展 - 世界模型是下一代AI方向 能感知空间 推理关系 执行任务 [13] - 世界模型是支撑空间智能和机器人产业的关键底座 [13] - 应用场景包括森林火灾预警 集装箱智能卸货等复杂物理环境 [13] AIGC内容产业革命 - 使用AI的视频创作者效率是传统创作者的10倍以上 [15] - AI不仅提高效率 更赋予普通人表达的可能 [15] - 一部AI辅助制作的电影仅需数月 未来三万亿美元内容产业将重新洗牌 [15] AI治理与发展 - AI发展的终极命题是治理 如何让AI"不想统治世界"是真正难题 [18] - 中国已在AI国际治理中开始发挥话语权 [18] - AI治理需要全人类共同参与 是未来科技与伦理的核心战场 [18]
【重磅深度/小马智行】革新交通运输,Robotaxi驶向未来
东吴汽车黄细里团队· 2025-08-06 21:52
行业趋势 - Robotaxi商业化拐点临近,自动驾驶套件量产降本显著,BOM成本降至30万元量级,百度Apollo RT6售价20.5万元,小马智行自动驾驶套件成本降低70% [3] - 激光雷达和车载计算单元成本分别下降68%和80%,推动整车成本优化 [3] - 政策支持、安全性提升与硬件降本共同推动行业迈过商业化拐点,潜在市场空间达千亿级 [3] 公司技术优势 - 核心团队汇聚无人驾驶领域顶尖人才,包括百度、Waymo背景的技术专家 [15][16] - PonyWorld平台生成超百亿公里测试数据,应用"世界模型"技术六年,实现闭环训练 [4][66] - 安全冗余系统具备20+功能安全机制、1000+实时检测设计,安全性达人类驾驶10倍以上 [4][67] 商业化进展 - 累计50万小时全无人安全运营,覆盖2000+平方公里区域,单车日均订单超15单 [4][73] - 2025年车队规模计划扩展至千辆,高速路测试进入"无人化"阶段 [73][75] - Robotruck累计路测600万公里,货运量9.4亿吨公里,完成无人编队运营进阶 [74] 业务布局 - 聚焦北上广深一线城市,持有中美韩卢森堡等多国运营牌照 [5][77] - 与Uber合作2025年中东落地服务,逐步推广全球 [5][78] - 物流领域联合中国外运、三一重卡,打造青骓物流平台 [5][74] 财务表现 - 2024年营收7503万美元,自动驾驶卡车收入占比提升至53.8% [18][23] - 2025Q1 Robotaxi收入同比+200%,车费收入+800% [23] - 研发费用2024年同比+95.7%至2.4亿美元,2025Q1环比降73.8% [26] 产品迭代 - 第七代车型搭载9激光雷达+14摄像头,感知范围650米,成本较上代降70% [70] - 域控制器计算效率提升3倍,体积/重量/功耗降50%以上 [67] - 与丰田、广汽、北汽合作推进L4车型量产,两款车型已下线 [69][73] 市场空间 - 中国共享出行市场规模2023年8.21万亿,Robotaxi占比0.01% [53] - 乐观预计Robotaxi占B端共享出行比例将升至36%,市场空间达2000亿元 [52] - 2026-2027年为销量爆发拐点,将替代部分私人出行需求 [52]
计算机行业重大事项点评:Genie3实现世界交互,AGI迈出关键一步
华创证券· 2025-08-06 17:34
行业投资评级 - 计算机行业评级为"推荐"(维持)[5] 核心观点 - Genie 3 实现实时交互模拟能力,可生成高度多样化的虚拟环境,标志着AGI迈出关键一步 [2] - Genie 3 基于海量视频数据集训练,支持720p分辨率、24fps帧率下实时生成高自由度动态三维场景,并能回溯长达一分钟的历史时序信息 [9] - 引入Promptable World Events功能,支持文本构建多样化虚构世界,允许实时调整环境参数和添加新角色 [9] - Genie 3 与Gemini大模型系列未来将深度整合,通过协同工作机制执行新型任务 [9] - 海内外世界模型加速突破,OpenAI的Sora支持1080p高分辨率、60秒时长视频生成,腾讯混元团队发布HunyuanWorld 1.0实现高质量可交互3D场景 [9] 行业数据 - 计算机行业股票家数337只,占总市值4.68%(50,833.86亿元),流通市值占比5.16%(44,617.66亿元)[6] - 行业绝对表现:1个月9.1%,6个月12.5%,12个月77.7%;相对表现分别超基准6.1%、4.4%、54.9% [7] 投资标的 国内企业 - 企业级服务:金山办公、合合信息、福昕软件等办公软件;迈富时、明源云等营销服务;金蝶国际ERP;泛微网络OA;万兴科技等多模态应用 [9] - 行业场景:金融(恒生电子、同花顺)、教育(科大讯飞)、医疗(卫宁健康)、工业(华大九天)、军用(中科星图)等 [9] 海外企业 - 办公(MSFT)、金融(AFRM)、工业(CDNS)、医疗(TEM)、创意(ADOBE)、电商(SHOP)、企业服务(CRM)、安全(PANW)、云服务(AMZN)等 [9] 技术突破 - Genie 3 采用单智能体架构,未来将优化多Agent代理交互机制 [9] - 国际模型如Sora采用时空Patch统一表征技术,国内HunyuanWorld 1.0融合全景图像合成与分层3D重建技术 [9]
谷歌深夜放出「创世引擎」Genie 3,一句话秒生宇宙,终极模拟器觉醒
36氪· 2025-08-06 15:32
产品核心能力 - 谷歌DeepMind发布新一代通用世界模型Genie 3,能模拟出史无前例的丰富交互环境 [1] - Genie 3能以每秒20-24帧速度实时生成720p画面,并能持续数分钟保持内容一致性 [2] - 该模型是谷歌DeepMind首个支持实时交互的世界模型,交互延迟为实时,交互时长可达数分钟 [10] - 模型具备模拟物理世界的能力,可生成水流、光照等自然现象并与复杂环境交互 [15] - 模型能生成充满生命力的自然系统,包括错综复杂的森林、花草等植物以及各种生物 [21] - 模型可创造奇幻场景和富有表现力的动画角色,如彩虹桥上的卡通狐狸、森林中的萤火虫 [26] - 模型能探索地点与历史场景,重现古代文明辉煌,实现跨越时空的体验 [31] 技术实现与突破 - 为实现实时交互与长时程一致性,模型需在自回归生成每一帧时考虑不断延长的先前轨迹,例如在一分钟后重访地点时需调取一分钟前的信息 [36] - 模型生成的环境能在数分钟内基本保持一致,视觉记忆最远可追溯到一分钟前,这是一种涌现能力 [38][46] - 相较于依赖显式3D表征的NeRFs和高斯溅射等技术,Genie 3生成的世界更为动态和丰富,是逐帧创造出来的 [46] - 除了导航输入,模型还支持由提示词驱动的世界事件,可通过一句话生成世界,例如改变天气、引入新物体或角色 [47] 行业应用与影响 - 世界模型被业界视为通往AGI道路上的关键基石,能让AI智能体在无限丰富的模拟环境中接受训练 [7] - Genie 3为新版SIMA智能体生成多个世界以验证其兼容性,智能体可通过发送导航指令完成任务,模型的一致性支持执行更长的动作序列以实现更复杂目标 [52][56] - 该模型能为教育和培训创造新机遇,帮助学生学习、助力专家积累经验,并为机器人和自主系统等AI智能体提供广阔的训练空间 [64] - 英伟达Jim Fan评价其为游戏引擎2.0时代,并认为未来UE5所有复杂功能都能被数据驱动的注意力权重吸纳 [4] - 谷歌DeepMind研究员Ali Eslami称Genie 3是自ChatGPT以来最令人印象深刻的演示 [13]
智驾平权,博世抛出基建“阳谋”
华尔街见闻· 2025-08-06 14:16
博世对智能驾驶行业的战略判断 - 核心观点为五年后全栈自研的智能驾驶将像安全气囊一样成为汽车标准件,不再构成差异化竞争优势 [2] - 博世致力于成为智能汽车时代的“基础设施”供应商,扮演底层核心角色,以打破车圈价格战内卷困局 [2] 智能驾驶技术发展趋势 - 随着技术收敛,智能驾驶将标准化,其功能价值在于安全、舒适地将用户从A点送至B点,不提供情绪价值 [3] - 行业竞争正朝“生态整合”方向发展,主机厂自研智驾面临巨大战略风险,投入高且周期长 [4] - 主机厂自研智驾需投入一两千人团队和每年数十亿资金,仅能适配自家十余款车型,而供应商能以类似资源覆盖几十款车型,且全栈自研需3年才能打通流程 [4] 博世的战略方案与竞争优势 - 博世提供高起点、可快速量产的成熟智驾方案,帮助车企迅速补齐短板,将资源投向能创造差异化价值的领域 [4] - 在端到端时代,博世认为凭借资金、算力、算法和数据优势,能够赶上头部玩家,并计划在2025年下半年通过一段式端到端方案实现体验反超 [8] - 博世与文远知行合作,基于英伟达Orin-X芯片打造的一段式端到端智驾方案将于今年8月底在星途的高端车型上落地 [10] - 博世的核心价值在于其大规模、高质量的工程交付能力,提供包含硬件、软件、测试、验证和生产的完整“交钥匙”工程 [10] 行业现状与博世的应对 - 中国汽车行业面临“增收不增利”的悖论,今年1-5月行业营收增长7%,但利润同比下滑11.9% [13] - 博世是唯一留在牌桌上做高阶智能驾驶的Tier1厂商,采埃孚、安波福、电装等企业已退出该领域 [14] - 博世为其ADAS团队推行“狼性文化”,以适应中国市场的竞争环境 [14] 未来竞争格局与博世愿景 - 当智驾实现“百公里0接管”后,竞争主战场将转向能提供情绪价值的智能座舱 [15] - 博世正与主机厂合作开发算力高达300TOPS的AI智能座舱,旨在通过感知和大数据成为用户的“灵魂伴侣” [15] - 汽车智能化的终极形态是舱驾一体,整合成算力高达1000-2000TOPS的中央计算平台,博世的智驾和AI座舱能力将构成其核心AI基石 [16]
DeepMind独家访谈实录,解密Genie 3世界模型,将颠覆游戏与机器人行业未来
36氪· 2025-08-06 14:14
核心技术突破 - 谷歌DeepMind研发的Genie 3 AI技术可通过文本提示在约3秒内生成720p分辨率、可交互且环境一致的3D虚拟世界 [1][5] - 该技术融合生成式视频模型、游戏引擎和模拟器特性,实现实时交互及长时预测能力,环境一致性通过大规模训练自然涌现 [2][5][12] - 相比前代Genie 2的360p分辨率和20秒生成时长,Genie 3将分辨率提升至720p并延长交互时间至数分钟,错误率显著降低 [3][6][11] 技术演进路径 - Genie 1基于3万小时2D游戏录像训练,具备时空视频标记器和无监督动作学习能力,发现8种离散动作并展现2.5D视差效果 [2][3] - Genie 2实现3D模拟能力,支持烟雾、火焰、水流等逼真光照效果,并具备物体记忆功能 [3][11] - 技术架构从图像提示升级为文本提示输入,增加场景多样性并支持可提示的世界事件(如添加滑雪者或鹿群) [5][16] 行业应用前景 - 为机器人和自动驾驶训练提供高保真模拟环境,可安全模拟罕见事件(如无人机避障、行人突然穿行) [5][15][20] - 推动娱乐产业变革,支持生成沉浸式VR体验和新型交互娱乐模式,潜在价值达万亿美元级 [1][7][17] - 替代传统游戏引擎部分功能,实现类似Unreal Engine 5.6的实时动态图形生成,但当前仍存在计算硬件依赖(TPU网络)和生成局限性 [7][12][19] 技术实现特点 - 采用扩散模型架构(如VO融合),逐帧生成像素并保持跨帧一致性,无需显式3D编程 [5][12][13] - 训练数据可能包含YouTube海量视频,模型通过分析帧间变化推断物理规则和动作空间 [2][8][15] - 目前仅支持单代理交互,多代理系统正在开发中,智能体行为通过模型权重嵌入实现 [6][18][19] 发展现状与规划 - 当前为研究原型,未开放公众使用,出于安全考虑将通过测试计划逐步部署 [7] - 未来方向包括多智能体模拟、与语言模型(如Gemini)结合,以及通过外循环增强系统开放性 [10][18][19] - 计算需求较高,依赖TPU网络运行,但演示显示响应速度达3秒内,具备实时交互能力 [5][8][19]