世界模型
搜索文档
“AI教母”李飞飞揭秘“世界模型”:要让AI像人类一样理解三维空间
36氪· 2025-06-06 20:31
公司概况 - World Labs由李飞飞创办,专注于研究前所未有的深度技术,目标是构建能够理解和推理三维物理世界的AI系统[4] - 公司寻找的投资者需具备计算机科学、人工智能、市场和产品等多方面专业知识,并能与创始人展开深度知识对话[4] - 李飞飞认为当前是集结行业资源(计算能力、数据、人才)实现"世界模型"理想的最佳时机[9] 技术方向 - World Labs致力于解决"空间智能"挑战,这是AI理解三维物理世界和虚拟数字宇宙的核心能力[2] - "世界模型"指能全面理解三维世界结构、形态和组成的AI系统,超越语言局限[4][6] - 技术突破点在于让AI具备类人的空间感知能力,这是实现"具身智能"的关键[11] 行业应用 - 创造力领域:将改变设计、电影、建筑和工业产品设计等视觉化和空间化的工作方式[12] - 机器人领域:赋能各类"具身智能机器"在三维环境中与人类协作[12] - 虚拟宇宙:结合生成模型和重建模型,创造"无限宇宙"的新体验[12][13] 技术比较 - 大语言模型存在局限性,无法完美捕捉三维世界的复杂性[6][7] - 3D计算机视觉相比2D具有显著优势,能解决机器人空间操作等实际问题[14] - 空间感知系统在进化史上早于语言系统出现,是更基础的智能组成部分[11] 发展前景 - "世界模型"将重新定义机器人、创意产业和计算本身[2] - 技术成熟后将推动人类突破二维思维框架,进入三维智能新时代[13] - 应用场景涵盖生产力、制造业、工程、社交、旅行等多个领域[12][13]
智源研究院发布“悟界”系列大模型,推动AI迈向物理世界
新京报· 2025-06-06 18:43
智源研究院发布"悟界"系列大模型 - 公司推出"悟界"系列大模型 包括原生多模态世界模型Emu3 脑科学多模态通用基础模型见微Brainμ 跨本体具身大小脑协作框架RoboOS 2 0与具身大脑RoboBrain 2 0以及全原子微观生命模型OpenComplex2 [1][4] - "悟界"模型代表对虚实世界边界的突破 推动人工智能从数字世界迈向物理世界 [3] 大模型技术发展趋势 - 大模型正从大语言模型向原生多模态大模型 世界模型方向演进 目标是让AI感知和理解物理世界 [2] - 提升大语言模型性能的三大路径 强化学习后训练和推理提升 数据合成突破 多模态数据利用 [2] - 多模态数据是文字数据的千万倍以上 目前远未被有效利用 [2] 脑科学多模态模型应用 - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 [4] - Brainμ在抑郁症 阿尔茨海默病 帕金森综合征预测上超越专用模型 [5] - 公司正与神经科学实验室 脑疾病研究团队和脑机接口企业合作 包括在便携式消费级脑电系统上重建感觉信号 [5] 具身智能发展突破 - RoboBrain 2 0任务规划准确率较1 0提升74% 全链路平均响应时延低于3毫秒 端云通信效率提升27倍 [8] - RoboOS 2 0实现无服务器一站式轻量化部署 机器人部署时间从天级降至小时级 [8] - 当前具身智能面临硬件不成熟 数据短缺 模型能力弱等挑战 形成发展循环悖论 [7] 微观生命模型创新 - OpenComplex2实现生物分子研究从静态结构预测到动态构象分布建模的突破 [9] - 该模型可预测蛋白质构型分布 助力新型治疗方案研发 缩短生物医药研发周期 [9] - 公司构建全球首个高速跨尺度心脏药物安全性评价平台 将药物评价时间从90天缩短至1天 [9]
刚刚,智源全新「悟界」系列大模型炸场!AI第一次真正「看见」宏观-微观双宇宙
机器之心· 2025-06-06 17:36
AI技术发展趋势 - AI技术从理解文字进化到建模世界、操控实体、模拟大脑、解构分子 [1] - 2025年AI领域热点包括DeepSeek R1、OpenAI o3、智能体Manus、英伟达Cosmos世界基础模型等 [2] - 智源大会聚集四位图灵奖得主、三十余位大模型企业创始人及CEO、一百多位青年科学家探讨AI前景 [3] 智源「悟界」系列大模型 - 智源推出全新「悟界」系列大模型,突破虚实边界,向物理AGI迈进 [4] - 「悟界」系列包含原生多模态世界模型Emu3、脑科学模型见微Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0、全原子微观生命模型OpenComplex2 [6] - 大模型发展从文图视频主导的数字世界进入物理世界,理解尺度从宏观跨越到微观 [8] 原生多模态世界模型Emu3 - Emu3是全球首个原生多模态世界模型,支持文本、图像、视频、声音、脑信号等多模态统一建模 [12] - 通过新型视觉tokenizer实现多模态同构表征,支持端到端多模态输入输出映射 [14] - Emu3推动AI从单一模态理解向多模态协同跃迁,加速创意生成、智能搜索等应用落地 [14] 脑科学多模态通用基础模型见微Brainμ - 见微Brainμ基于Emu3架构,统一处理MRI、EEG、双光子成像等神经信号,累计处理超100万单位数据 [15] - 支持跨任务、跨模态、跨个体建模,性能超越专用模型,成为神经科学领域的AlphaFold [15] - 具备跨物种能力,兼容人类、小鼠、狨猴、猕猴数据,推动脑机接口技术实用化 [17] 具身智能框架RoboOS 2.0与RoboBrain 2.0 - RoboOS 2.0是全球首个具身智能SaaS平台,支持无服务器轻量化部署,性能提升30%,响应时延压缩至3毫秒以下 [22][24] - RoboBrain 2.0任务规划准确率提升74%,空间推理能力提升17%,新增深度思考与闭环反馈能力 [27][28] - 开源框架降低开发门槛,代码量仅为传统方式的1/10,与全球20多家具身智能企业合作 [24][31] 全原子微观生命模型OpenComplex2 - OpenComplex2突破生命尺度,可预测生物分子静态结构及动态构象分布 [34][35] - 基于FloydNetwork图扩散框架与多尺度原子级精度表示,精准捕捉分子动态特性 [35] - 在CASP16竞赛中唯一成功预测蛋白质T1200/T1300构象分布,推动生物医药研发加速 [36][38] 行业影响与未来展望 - 智源「悟界」系列从语言建模转向世界建模,为多模态、具身智能、AI for Science注入活力 [40] - 四大方向协同布局是认知智能走向具身智能与科学智能的关键一步 [40] - 大模型时代将深入理解与改变世界的系统,不止于提示框 [41]
世界模型有新进展,算力成本、数据质量成关键!数据ETF(516000)多空博弈激烈
每日经济新闻· 2025-06-06 15:11
指数及成分股表现 - 中证大数据产业指数(930902)盘中震荡 成分股石基信息涨停 科华数据上涨2.43% 神州泰岳上涨1.91% 神州信息领跌3.04% 拓维信息下跌2.51% 税友股份下跌1.99% [1] - 数据ETF(516000)最新报价0.92元 近1周累计上涨1.89% 涨幅排名可比基金第一 盘中换手率6.44% 成交额2853.13万元 [1] 人工智能技术进展 - 北京智源人工智能研究院发布"悟界"系列大模型 包含原生多模态世界模型Emu3 脑科学多模态通用基础模型Brainμ 具身大脑RoboBrain 2.0 全原子微观生命模型OpenComplex2 [1] - Emu3为全球首个原生多模态世界模型 基于世界模型的多模态和推理能力 可实现更自然智能的AI交互 [1] 行业应用动态 - 造车新势力积极布局世界模型技术 小鹏 理想 华为 地平线等企业将世界模型作为智能驾驶系统核心技术 [2] - 智能驾驶竞争焦点从车端算力转向云端世界模型构建能力 需提升车载芯片算力 传感器精度 算法研发能力 [2] - 世界模型采用云端训练+车端蒸馏技术提升泛化能力 但规模化落地受算力成本与数据质量限制 [2] 产品跟踪标的 - 数据ETF紧密跟踪中证大数据产业指数 该指数覆盖大数据存储设备 分析技术 运营平台 生产应用等领域上市公司 [2] - 数据ETF场外联接基金包括华夏中证大数据产业ETF发起式联接A/C/D类份额(代码020335/020336/023779) [2]
李飞飞的世界模型,大厂在反向操作?
虎嗅· 2025-06-06 14:26
公司概况 - 李飞飞创办的World Labs专注于开发具备"空间智能"的下一代AI系统,探索AI对三维世界的理解与建模能力[2] - 公司在2024年成立后三个月内完成两轮融资,累计筹集2.3亿美元,估值突破10亿美元成为AI领域独角兽[3] - 投资方包括a16z、英伟达NVentures、AMD Ventures、Intel Capital等科技与风投机构[4] 技术方向 - 核心研究方向为"世界模型",即AI对现实世界的三维理解能力,需结合视觉、空间感、动作等多维度信息[15][18] - 关键技术包括:NeRF(神经辐射场)实现二维图像到三维重建、高斯平面表示法提升实时渲染效率、扩散模型优化空间数据细节[30][33][38] - 需突破多视角数据融合与物理动态建模,使AI能预测物体运动(如风吹树叶、球体滚动)[41][46] 应用场景 - 游戏行业:AI根据照片或视频自动生成逼真三维场景,替代传统手工建模[51] - 建筑行业:几分钟内生成立体结构并模拟光照效果,大幅提升设计效率[53] - 机器人领域:赋予三维视觉能力,解决二维视觉导致的距离判断与导航问题[54] - 数字孪生:构建工厂/城市的虚拟副本用于灾害模拟与优化[56] - 创意产业:辅助艺术家进行空间化创作,成为"创作者伙伴"[59] 行业挑战 - 数据瓶颈:需大量带深度信息与空间结构的真实场景数据,目前获取成本高[63][64] - 算力限制:NeRF等技术计算资源需求大,难以大规模商业化落地[66] - 泛化能力:模型在陌生场景中易失效,需提升适应性[67] - 需跨学科协作整合硬件、软件、数据与应用生态[69] 团队与行业趋势 - World Labs团队涵盖计算机视觉、图形学、扩散模型、物理仿真与机器人控制等多领域专家[73][75] - AI研究范式从单一学科转向多学科融合,需集体智慧推动系统工程[77] - 空间智能被视为实现通用人工智能(AGI)的第一步,需具备空间感知与动态推理能力[94][95]
对话智源研究院院长王仲远:人工智能正加速从数字世界走向物理世界
每日经济新闻· 2025-06-06 13:15
公司战略与产品发布 - 智源研究院在“2025智源大会”上发布“悟界”系列大模型,标志着公司从“悟道”时代进入“具身智能”探索阶段 [1] - 公司战略升级的根本逻辑是人工智能正加速从数字世界走向物理世界 [1] - “悟界”系列模型不仅强化推理能力,更尝试将AI从虚拟认知延伸至真实物理世界的感知与交互,其核心技术支点是“世界模型”的探索 [7] 行业趋势与技术演进 - 当前主流大模型多聚焦于C端文本生成、语言对话等“数字智能”场景,而行业正迈向与现实环境互动的“具身智能”阶段 [5][6] - 人工智能技术最终目标是帮助人类摆脱繁琐、重复的劳动,大模型技术应继续向现实世界渗透,服务实际场景 [6] - 具身智能被视为下一场AI竞赛的起点,目前尚处于“小组赛”阶段,远未到“淘汰赛”,率先跑通技术路径者或将定义人工智能的下一个十年 [5][8] 技术路径与核心挑战 - 公司对“世界模型”的理解是原生多模态模型,旨在通过单一模型捕捉包括物理规则和人际交互机制在内的世界规律 [7] - 具身智能发展的一个关键点是“大小脑协同框架”,即实现AI系统决策层与执行层的高效配合,公司推出的RoboOS操作系统是此方向的一次尝试 [9] - 当前技术远未成熟,核心挑战是数据受限,感知数据无法支撑统一模型的训练和泛化,限制了AI在多任务场景中的能力扩展 [10] - 具身智能面临“数据难题”,真实世界数据稀缺,影响了训练以及模型在感知层和决策层之间的协同能力 [10] 未来展望与突破路径 - 实现大小脑融合的模型可能需要五到十年,其发展路径是从专用任务过渡到具备泛化能力,最终成为通用系统,即AI从1.0迈向2.0的过程 [10] - 具身智能的突破或可借鉴“基础模型+强化学习”的技术路线,在大规模已有数据基础上进行预训练,再结合少量真实世界数据通过强化学习迭代 [10][11]
蔚来-SW(09866.HK):将迎来多款新车交付;改革成效有望逐步兑现
格隆汇· 2025-06-06 10:06
1Q25业绩表现 - 公司1Q25营收120亿元,Non-GAAP净亏损62.8亿元,符合市场预期 [1] - 1Q25交付42,094辆汽车,环比下滑,汽车毛利率环比下降至10.2% [1] - 研发费用31.8亿元,销管费用44.0亿元,环比均有所下滑 [1] - 净亏损主要受季节性因素及产品迭代期影响 [1] 2Q25及全年展望 - 2Q25计划交付7.2-7.5万辆汽车 [1] - 2025年将推出多款新车型,包括ET9、萤火虫首款车型及乐道两款SUV [1] - 公司指引部分车型毛利率有望超过20% [1] - 全年自由现金流有望实现正向流入 [2] CBU改革与费用优化 - 公司启动CBU改革,通过拆分经营单元提升组织效率和销量 [2] - 2Q25研发费用目标控制在20-25亿元,效率提升15% [2] - 销管费用率目标4Q25降至10%左右 [2] 技术进展与产品升级 - 5月30日推出蔚来世界模型NWM首个版本,升级主动安全、高速领航等功能 [3] - 智能硬件预埋为技术迭代提供空间,不同版本车主均可享受最新技术成果 [3] 市场估值与目标价 - 当前美股及港股对应2025年0.6x P/S [3] - 下调港美股目标价15%至41港币/5.3美元,对应2025年0.9x P/S [3] - 港股和美股较当前股价分别有47%/41%上行空间 [3]
马斯克与特朗普公开对骂,特斯拉市值一夜蒸发超1万亿元;“AI教母”李飞飞揭秘“世界模型”丨全球科技早参
每日经济新闻· 2025-06-06 08:30
AI意识与人机关系 - OpenAI模型行为负责人Joanne Jang提出人类即将进入"AI意识"阶段 强调需要关注AI对人类情感福祉的实际影响而非争论AI本体 [2] - 当前重点在于引导健康的人机关系 避免产生不健康的依赖 [2] 特斯拉市值波动 - 特斯拉CEO马斯克与美国总统特朗普公开对骂导致公司股价单日暴跌14% 市值蒸发1525亿美元(约10943亿元人民币) [3] - 特朗普暗示可能取消特斯拉及其关联公司的政府合同 加剧市场恐慌 [3] 微软与OpenAI合作关系 - 微软CEO纳德拉承认与OpenAI的合作关系正在经历变化 但强调双方合作依然牢固 [4] - 指出OpenAI从研究实验室转型为商业化产品公司必然伴随合作关系调整 [4] AI世界模型技术突破 - 斯坦福教授李飞飞提出"世界模型"概念 旨在让AI系统具备理解三维物理世界规律的能力 [5] - World Labs公司研究方向聚焦于突破AI仅处理文字信息的局限 推动对物理世界的推理能力 [5] 稳定币公司上市表现 - Circle成为纽交所"稳定币第一股" IPO首日开盘暴涨122.58% 最终收涨近170% [6] - 发行价31美元远超指导区间(27-28美元) 盘中因波动触发熔断机制 [6] - 公司成为美国市场第四家纯加密货币上市公司 反映稳定币赛道获主流资本市场认可 [6]
腾讯研究院AI速递 20250606
腾讯研究院· 2025-06-05 23:26
ChatGPT更新 - 新增连接器功能,可访问企业和个人数据源如Outlook、Teams、Google Drive等 [1] - 推出录音模式,支持自动转录、提取关键点、带时间戳查询,首先向macOS的Team用户开放 [1] - 调整定价策略,为Enterprise和Team工作区增加信用点,现有用户将能完全访问最新模型功能 [1] Cursor 1.0发布 - 推出BugBot自动代码审查工具,可自动找出潜在bug并提供修复建议 [2] - 后台智能体功能向所有用户开放,支持Jupyter Notebook深度集成,提升科研和数据科学任务效率 [2] - 新增记忆功能可记住对话关键信息,一键安装MCP服务器,优化聊天体验支持直接渲染Mermaid图表和Markdown表格 [2] Luma推出Modify Video - 推出"Modify Video"功能,能在保留原视频动作和运镜的同时,完全改变场景、角色和环境 [3] - 支持视频动捕、风格迁移和单元素编辑三种操作,可精确控制只编辑想要的元素而不篡改原动作 [3] - 官方测评显示Luma在观看愉悦度、结构相似度、运动轨迹跟随等多个维度上均超越同行Runway V2V [3] Bland TTS声音克隆技术 - 推出突破性声音克隆技术,仅需3-6个语音样本即可完美复制说话风格,并能根据文本内容自动调整情感表达 [4] - 采用大语言模型直接预测"音频Token",实现语音风格控制、音效生成、语音混合和情绪理解四大核心功能 [5] - 已广泛应用于创作者配音、开发者API集成和企业客户服务,未来将开启超个性化语音助手、语言学习革命等可能性 [5] Firecrawl推出search API - 发布v1.10.0版本,推出Search MCP,实现一键网页搜索与内容抓取功能 [6] - 支持多种输出格式和搜索参数自定义,Python/Node.js SDK全面支持这些新功能 [6] - 增强功能包括自动代理抓取、Redis分离、并发日志接口、元数据提取增强,并修复了子域名处理等问题提升稳定性 [6] 上海AILab推出VeBrain框架 - 提出VeBrain通用具身智能大脑框架,集成视觉感知、空间推理和机器人控制能力 [7] - 将机器人控制转化为MLLM常规2D空间文本任务,并通过"机器人适配器"实现从文本决策到真实动作的精准映射 [7] - 在13个多模态基准测试中超越GPT-4o和Qwen2.5-VL,在机器人控制任务上比现有模型提升50%成功率,构建了60万条指令的VeBrain-600k高质量数据集 [7] DeepMind研究观点 - 揭示智能体策略中包含准确模拟环境的全部信息,且可通过算法从策略中提取世界模型 [8] - 研究表明实现AGI不存在无模型捷径,提升性能和通用性必须学习更精确的世界模型 [9] Karpathy新观点 - 提出基于复杂UI界面、缺乏脚本支持、使用不透明二进制格式的软件产品将面临被淘汰风险 [10] - 将软件按风险等级分类:Adobe产品、DAWs等专业软件处于高风险区,Blender、Unity位于中高风险区,Excel居中低风险区,VS Code、Figma等基于文本的工具处于低风险区 [10] 李飞飞对话a16z - 认为LLM只是"有损压缩"的认知方式,世界模型才是AI真正重要的发展方向 [11] - 创办World Labs旨在开发具备"空间智能"的AI系统,认为技术已达临界点,如NeRF等三维视觉建模技术的突破让世界模型构建成为可能 [11] - 世界模型的应用远超机器人,将使AI不仅能"看懂"三维世界,还能"生成"并"操作"虚拟空间,为设计、创作与模拟实验开辟全新维度 [11]
【蔚来(NIO.N)】1Q25基本面承压,多维度寻求边际改善——2025年一季度业绩点评(倪昱婧)
光大证券研究· 2025-06-05 21:36
1Q25财务表现 - 1Q25总收入同比+21.5%/环比-38.9%至120.4亿元,毛利率同比+2.7pcts/环比-4.1pcts至7.6% [3] - Non-GAAP归母净亏损同比扩大28.2%/环比收窄4.2%至62.8亿元 [3] - 汽车业务收入同比+18.6%/环比-43.1%至99.4亿元,ASP同比-15.3%/环比-1.8%至23.6万元 [4] - 汽车业务毛利率同比+1.0pcts/环比-2.9pcts至10.2% [4] 运营与交付数据 - 1Q25交付量同比+40.1%/环比-42.1%至4.2万辆 [4] - Non-GAAP研发费用率同比-2.6pcts/环比+7.5pcts至24.2% [4] - Non-GAAP SG&A费用率同比+5.4pcts/环比+10.9pcts至35.0%,主因乐道品牌渠道及充换电网络建设 [4] - Non-GAAP单车亏损环比扩大至14.9万元,截至1Q25末在手现金260亿元 [4] 2Q25E展望与降本措施 - 2Q25E交付量指引7.2-7.5万辆 [4] - 4-5月毛利率或受老车型清库影响承压,6月起2025款ET5/ET5T/ES6/EC6交付有望带动NIO品牌毛利率修复 [4] - 多维度降本措施包括自研芯片降低单车成本、乐道品牌渠道扩建及充换电网络建设 [5] 中长期战略与产品规划 - "5566"改款爬坡+4Q25E ES8改款上市有望推动NIO品牌4Q25E单月销量达2.5万辆 [5] - L60销量爬坡+2H25E L90/L80上市或带动乐道品牌4Q25E单月销量达2.5万辆 [5] - 世界模型5/30推送,实现主动安全/高速领航/城区领航/智能泊车升级,停车场自主寻路功能为全球首个量产 [5]