Workflow
多模态世界模型
icon
搜索文档
星标超 29 万,OpenClaw 两天两次大更!适配GPT 5.4,告别“抽卡式 Prompt”
AI科技大本营· 2026-03-10 16:26
OpenClaw 2026.3.7/3.8 版本重大更新 - 项目团队于3月7日及8日连续发布两次重大更新,强调“We don't do small releases”,表明此次更新规模巨大 [1][4] - 此次更新是一次“真正的大版本升级”,在发布2026.3.7版本后,次日迅速推出了2026.3.8-beta.1和修复版 [4] - 2026.3.7版本有196位贡献者参与开发与改进,体现了开源生态的活跃与紧密协作 [5] 版本更新核心方向 - 本次大规模更新主要集中在模型能力、Agent架构、工程部署以及安全机制四个方向 [7] - **模型能力升级**:新增对GPT-5.4与Gemini 3.1 Flash-Lite的支持,方便开发者接入最新大模型能力 [8] - **Agent架构升级**:引入了可插拔Context Engine(上下文引擎),这是最受开发者关注的新能力之一 [9] - **工程部署优化**:包括ACP绑定支持重启恢复以提高稳定性、Slim Docker多阶段构建以减少容器体积、新增HEIF图片格式支持、修复Telegram通信问题等,使系统在真实环境中的部署与维护更高效 [10][11] - **安全与可靠性增强**:在2026.3.8更新中强化了安全与运维能力,包括ACP provenance(识别消息来源)、Openclaw backup(新增备份与恢复能力)以及修复了12+项安全漏洞 [12][13] OpenClaw 发展重点与行业应用 - 从连续更新可以看出,OpenClaw的发展重点已从单纯的技术实验转向智能体系统的工程化与落地应用 [13] - 在2026奇点智能技术大会上,多位来自一线企业的技术专家分享了OpenClaw在真实业务中的实践经验 [13] - 分享嘉宾包括网易有道、MiniMax、沐曦、腾讯云等公司的技术负责人,主题涵盖AI产品实践、企业落地、数字员工及AI工作台等 [16][17][18][19] - 大会旨在呈现从模型能力到Agent架构,再到企业落地与多场景实践的全景视角,展示开源项目的技术升级及其产业应用价值 [19] 2026 奇点智能技术大会概况 - 大会将汇聚50+位技术专家,围绕大语言模型、多模态世界模型、AI Infra、AI原生应用等十二大专题展开深度分享 [20] - 参会专家来自奇点智能研究院、腾讯微信、新浪微博、小红书、微软亚洲研究院、京东、百度、无问芯穹、Macaron AI、红帽等知名企业与研究机构 [21] - 大会同步开放技术生态合作伙伴、企业专场共建、行业解决方案联合展示等多种合作形式 [23][26]
GAN之父Ian Goodfellow病后归来,剑指高效世界模型
机器之心· 2026-03-07 19:20
文章核心观点 - 文章提出,构建具备动作条件能力的多模态世界模型,是实现高级AI(如具身AGI)的关键路径,而利用符号化表示(如代码、自然语言)和游戏虚拟世界的数据,是构建此类模型在数据效率和计算效率上更具优势的最佳方法[5][19][20] 世界模型的定义与重要性 - **世界模型的概念**:世界模型是一种能够表示环境动态变化和因果结构的模型,在强化学习框架中,它用于近似环境的状态转移函数,预测在特定状态下执行动作后的下一个世界状态[8] - **世界模型的作用**:借助世界模型,AI可以进行预测、规划、推理和行动,而无需每次都通过与真实世界直接交互来观察后果[9] - **构建世界模型的目标**:是为了实现能够释放巨大经济价值的AI能力,帮助人们摆脱不受欢迎的工作,其核心在于获得在多模态环境中进行因果推理的能力,这是通向具身AGI最重要的核心能力之一[12] 当前模型的局限与新的路径 - **纯像素世界模型的局限**:以生成式视频模型(如Sora)为代表的基于像素的世界模型,虽然能生成高质量视觉内容,但未必能真正捕捉世界的因果结构,且在速度和成本上效率较低,可能出现物理理解错误[13] - **人类认知的启示**:人类依赖认知工具(如自然语言、数学符号)对世界进行高效抽象和因果表达,这比通过原始感官数据完整重建世界更高效[15] - **新路径的优势**:利用符号化表示(如代码、自然语言)作为抽象层,可以让模型将表示能力集中在真正影响决策的世界要素上,在数据和计算效率上都更具优势,并能有效支持对长时间跨度任务的预测与推理[15][16] 数据来源与可扩展性 - **现有数据的不足**:互联网上虽有海量视频数据,但记录行动本身及其结果、能帮助模型理解行动后果的数据非常稀缺[18] - **更具效率的数据来源**:利用软件抽象构建多样化的合成世界(如游戏虚拟世界)是更具数据效率和计算效率的训练路径,这些环境通过键盘、鼠标等接口,能自然积累同时包含行动与观测的数据[18][19] - **商业化驱动的飞轮效应**:从数字世界(如游戏)开始构建世界模型,能够形成商业自我持续发展的路径,明确的参与激励(如娱乐)和可扩展的数据采集接口能让数据自然积累,持续推动模型能力提升[19][20] 模型设计的关键原则 - **设计应围绕策略展开**:世界模型的设计应当围绕希望从中学习到的策略来展开,而非追求单一的世界表示形式[22] - **需满足的关键属性**:无论用于虚拟还是现实世界,一个优秀的世界模型需要优先满足在长时间尺度上保持空间和物理状态的一致性,并能真实反映行动带来的后果等关键属性[22] - **最终愿景**:目标是构建一种在完全成熟形态下,不仅能够生成环境,还能用于训练和控制任何具身智能体(无论在虚拟还是现实世界中)的模型[20]
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
量子位· 2025-12-10 12:26
研究突破与核心框架 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构,提出了名为UNeMo的视觉-语言导航新框架,该论文已入选AAAI2026 [1][5] - 该框架旨在解决现有基于大语言模型的导航方法面临的两大瓶颈:推理模态单一(仅依赖语言,缺乏视觉预判)以及优化目标冲突(推理与导航策略分开训练,适配性差)[9] - 其核心突破在于构建了“多模态世界模型”与“分层预测反馈导航器”的双向协同架构,将视觉状态推理与导航决策深度绑定,形成“预判+决策”闭环 [10][11][19] 技术架构与工作原理 - 多模态世界模型基于条件变分自编码器构建,能接收当前视觉特征、语言指令与候选动作,通过跨注意力机制融合信息,预测未来视觉状态,无需额外标注数据即可通过导航结果反馈持续优化 [12][13][14] - 分层预测反馈导航器采用两阶段机制:首先生成粗粒度候选动作锁定方向,再融合预测的未来视觉状态优化出细粒度动作以修正偏差,提升复杂场景下的导航稳健性 [17] - 该架构实现了推理与决策的动态闭环赋能,MWM的视觉预判提升决策精准度,导航执行结果实时反馈优化MWM预测准确性,两者双向促进持续迭代 [20][21] 性能与效率表现 - 在核心数据集R2R的测试中,UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30% [24] - 资源消耗大幅优化:训练时GPU显存占用从27GB降至12GB,减少56%;推理速度从每步1.1秒提升至0.7秒,效率提升40% [24] - 在模型未见过的测试环境中,导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点;路径效率(SPL)从60%提升至61.3% [26][27] 复杂场景与长路径导航优势 - UNeMo在长轨迹导航中表现突出,在未见过的环境中导航成功率可达72.5% [4] - 具体在长路径(长度≥7)导航中,成功率大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径(长度<7)的4.7倍,有效缓解了长距离导航的累积误差 [29][30] 架构通用性与可拓展性 - 团队将UNeMo迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE进行验证 [31] - 实验结果显示,其在未见场景的导航成功率与远程目标定位成功率指标上均有提升,表明该协同训练架构能灵活适配不同类型的导航系统,具备强可拓展性 [32][33] 总结与意义 - UNeMo通过其协同架构,解决了传统VLN方法推理与决策脱节、资源消耗高的问题 [34] - 该框架具备轻量化配置、高性能、长路径导航稳健以及跨场景适配性强的优势,为视觉-语言导航提供了高效可行方案,有助于服务机器人等实际场景的落地 [34]
奥特曼否认OpenAI明年上市;中国移动0元划转4198万股
21世纪经济报道· 2025-11-04 11:27
巨头风向标 - OpenAI CEO否认公司计划明年上市,并透露其年收入远超传闻中的130亿美元 [2] - 中国移动集团将其持有的4198.1348万股A股股份无偿划转给中国石油集团,划转后中国移动集团持股比例从69.05%降至68.85%,中国石油集团持股0.19% [3] - 微软CEO表示公司可能在未来一年内重启招聘,前提是现有员工掌握与AI协作的新工作模式,公司现有员工21.9万人 [4] - OpenAI与亚马逊云科技达成380亿美元算力采购协议,将使用数十万块英伟达GPU,同时承诺继续向微软采购2500亿美元服务 [5] - 小鹏汽车CEO何小鹏官宣团队正全力冲刺2026年实现机器人量产,并展望未来5-10年机器人将走入更多家庭 [6] - 埃隆·马斯克宣布将推出一款全新的加密通信平台XChat,主打无广告和高隐私保护 [7] - 波音公司以105.5亿美元完成其数字航空解决方案业务部分资产的出售,交易为全现金,旨在优化资本结构并专注于核心业务 [8] 政策与标准 - 国家数据局表示在数据领域标准研制中企业占比达78%,并明确将优先支持创新能力强、掌握核心技术的民营企业牵头标准研制 [9] 芯片与半导体 - 马斯克称已与团队审核特斯拉智能辅助驾驶芯片AI 5的进度,并表示AI 6、AI 7将紧随其后推出 [10] - 高通与联发科加速布局台积电N2P工艺,台积电A16制程最快明年3月试产,苹果将于A20系列芯片中引入WMCM先进封装技术 [11] 融资与资本 - 武汉蔚能电池资产有限公司完成6.7亿元C轮股权融资,公司运营电池资产规模已突破30GWh,服务用户超40万人,并已申请专利超160项 [12] 产品与技术 - 智源研究院发布悟界Emu3.5多模态世界大模型,其参数量从8B上升至34B,视频数据训练量时长从15年跃升至790年,并通过新技术将每张图片的推理速度提升近20倍 [13]
智源研究院发布“悟界”系列大模型:让AI看见并理解物理世界
经济观察网· 2025-06-07 10:55
智源研究院最新动态 - 北京智源大会开幕,吸引图灵奖得主约书亚·本吉奥、强化学习之父理查德·萨顿及谷歌、Meta、华为等全球知名AI机构学者参与[2] - 公司发布"悟界"系列四大模型,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0及全原子微观生命模型OpenComplex2[2][3] - 院长王仲远提出大语言模型面临增长天花板,AI下一阶段需突破多模态世界模型以理解物理世界[2][4] 悟界系列模型技术细节 - Emu3采用视觉Tokenizer技术,实现文字/图像/视频的统一表征和生成[3] - Brainμ整合超100万单位神经信号数据,与清华、北大等机构合作验证脑疾病诊断等应用潜力[3] - RoboOS 2.0性能提升30%,全链路响应时延缩短至毫秒级;RoboBrain 2.0增强多机协同规划能力[3] - OpenComplex2实现原子级分子运动模拟,弥补AI静态结构预测短板[3] 战略方向与行业趋势 - 公司提出从语言模型转向世界模型,通过多模态技术让AI模拟物理世界运行与交互[4] - 具身智能短期面临商业化挑战,包括数据采集成本、伦理问题及适配成本[5] - 与香港投资管理有限公司达成战略合作,聚焦全球人才汇聚与技术全球化[6] 国际化与开源进展 - 坚持开源路线,累计开源200个模型,全球下载量达6.4亿次[7] - 通过新加坡"青源会"连接全球青年AI人才,加强欧洲合作并评估中东市场机会[6] - 历史模型"悟道"系列曾创1.75万亿参数纪录,2023年悟道3.0实现多模态突破并全面开源[6]