世界模型

搜索文档
马斯克与特朗普公开对骂,特斯拉市值一夜蒸发超1万亿元;“AI教母”李飞飞揭秘“世界模型”丨全球科技早参
每日经济新闻· 2025-06-06 08:30
AI意识与人机关系 - OpenAI模型行为负责人Joanne Jang提出人类即将进入"AI意识"阶段 强调需要关注AI对人类情感福祉的实际影响而非争论AI本体 [2] - 当前重点在于引导健康的人机关系 避免产生不健康的依赖 [2] 特斯拉市值波动 - 特斯拉CEO马斯克与美国总统特朗普公开对骂导致公司股价单日暴跌14% 市值蒸发1525亿美元(约10943亿元人民币) [3] - 特朗普暗示可能取消特斯拉及其关联公司的政府合同 加剧市场恐慌 [3] 微软与OpenAI合作关系 - 微软CEO纳德拉承认与OpenAI的合作关系正在经历变化 但强调双方合作依然牢固 [4] - 指出OpenAI从研究实验室转型为商业化产品公司必然伴随合作关系调整 [4] AI世界模型技术突破 - 斯坦福教授李飞飞提出"世界模型"概念 旨在让AI系统具备理解三维物理世界规律的能力 [5] - World Labs公司研究方向聚焦于突破AI仅处理文字信息的局限 推动对物理世界的推理能力 [5] 稳定币公司上市表现 - Circle成为纽交所"稳定币第一股" IPO首日开盘暴涨122.58% 最终收涨近170% [6] - 发行价31美元远超指导区间(27-28美元) 盘中因波动触发熔断机制 [6] - 公司成为美国市场第四家纯加密货币上市公司 反映稳定币赛道获主流资本市场认可 [6]
腾讯研究院AI速递 20250606
腾讯研究院· 2025-06-05 23:26
ChatGPT更新 - 新增连接器功能,可访问企业和个人数据源如Outlook、Teams、Google Drive等 [1] - 推出录音模式,支持自动转录、提取关键点、带时间戳查询,首先向macOS的Team用户开放 [1] - 调整定价策略,为Enterprise和Team工作区增加信用点,现有用户将能完全访问最新模型功能 [1] Cursor 1.0发布 - 推出BugBot自动代码审查工具,可自动找出潜在bug并提供修复建议 [2] - 后台智能体功能向所有用户开放,支持Jupyter Notebook深度集成,提升科研和数据科学任务效率 [2] - 新增记忆功能可记住对话关键信息,一键安装MCP服务器,优化聊天体验支持直接渲染Mermaid图表和Markdown表格 [2] Luma推出Modify Video - 推出"Modify Video"功能,能在保留原视频动作和运镜的同时,完全改变场景、角色和环境 [3] - 支持视频动捕、风格迁移和单元素编辑三种操作,可精确控制只编辑想要的元素而不篡改原动作 [3] - 官方测评显示Luma在观看愉悦度、结构相似度、运动轨迹跟随等多个维度上均超越同行Runway V2V [3] Bland TTS声音克隆技术 - 推出突破性声音克隆技术,仅需3-6个语音样本即可完美复制说话风格,并能根据文本内容自动调整情感表达 [4] - 采用大语言模型直接预测"音频Token",实现语音风格控制、音效生成、语音混合和情绪理解四大核心功能 [5] - 已广泛应用于创作者配音、开发者API集成和企业客户服务,未来将开启超个性化语音助手、语言学习革命等可能性 [5] Firecrawl推出search API - 发布v1.10.0版本,推出Search MCP,实现一键网页搜索与内容抓取功能 [6] - 支持多种输出格式和搜索参数自定义,Python/Node.js SDK全面支持这些新功能 [6] - 增强功能包括自动代理抓取、Redis分离、并发日志接口、元数据提取增强,并修复了子域名处理等问题提升稳定性 [6] 上海AILab推出VeBrain框架 - 提出VeBrain通用具身智能大脑框架,集成视觉感知、空间推理和机器人控制能力 [7] - 将机器人控制转化为MLLM常规2D空间文本任务,并通过"机器人适配器"实现从文本决策到真实动作的精准映射 [7] - 在13个多模态基准测试中超越GPT-4o和Qwen2.5-VL,在机器人控制任务上比现有模型提升50%成功率,构建了60万条指令的VeBrain-600k高质量数据集 [7] DeepMind研究观点 - 揭示智能体策略中包含准确模拟环境的全部信息,且可通过算法从策略中提取世界模型 [8] - 研究表明实现AGI不存在无模型捷径,提升性能和通用性必须学习更精确的世界模型 [9] Karpathy新观点 - 提出基于复杂UI界面、缺乏脚本支持、使用不透明二进制格式的软件产品将面临被淘汰风险 [10] - 将软件按风险等级分类:Adobe产品、DAWs等专业软件处于高风险区,Blender、Unity位于中高风险区,Excel居中低风险区,VS Code、Figma等基于文本的工具处于低风险区 [10] 李飞飞对话a16z - 认为LLM只是"有损压缩"的认知方式,世界模型才是AI真正重要的发展方向 [11] - 创办World Labs旨在开发具备"空间智能"的AI系统,认为技术已达临界点,如NeRF等三维视觉建模技术的突破让世界模型构建成为可能 [11] - 世界模型的应用远超机器人,将使AI不仅能"看懂"三维世界,还能"生成"并"操作"虚拟空间,为设计、创作与模拟实验开辟全新维度 [11]
【蔚来(NIO.N)】1Q25基本面承压,多维度寻求边际改善——2025年一季度业绩点评(倪昱婧)
光大证券研究· 2025-06-05 21:36
1Q25财务表现 - 1Q25总收入同比+21.5%/环比-38.9%至120.4亿元,毛利率同比+2.7pcts/环比-4.1pcts至7.6% [3] - Non-GAAP归母净亏损同比扩大28.2%/环比收窄4.2%至62.8亿元 [3] - 汽车业务收入同比+18.6%/环比-43.1%至99.4亿元,ASP同比-15.3%/环比-1.8%至23.6万元 [4] - 汽车业务毛利率同比+1.0pcts/环比-2.9pcts至10.2% [4] 运营与交付数据 - 1Q25交付量同比+40.1%/环比-42.1%至4.2万辆 [4] - Non-GAAP研发费用率同比-2.6pcts/环比+7.5pcts至24.2% [4] - Non-GAAP SG&A费用率同比+5.4pcts/环比+10.9pcts至35.0%,主因乐道品牌渠道及充换电网络建设 [4] - Non-GAAP单车亏损环比扩大至14.9万元,截至1Q25末在手现金260亿元 [4] 2Q25E展望与降本措施 - 2Q25E交付量指引7.2-7.5万辆 [4] - 4-5月毛利率或受老车型清库影响承压,6月起2025款ET5/ET5T/ES6/EC6交付有望带动NIO品牌毛利率修复 [4] - 多维度降本措施包括自研芯片降低单车成本、乐道品牌渠道扩建及充换电网络建设 [5] 中长期战略与产品规划 - "5566"改款爬坡+4Q25E ES8改款上市有望推动NIO品牌4Q25E单月销量达2.5万辆 [5] - L60销量爬坡+2H25E L90/L80上市或带动乐道品牌4Q25E单月销量达2.5万辆 [5] - 世界模型5/30推送,实现主动安全/高速领航/城区领航/智能泊车升级,停车场自主寻路功能为全球首个量产 [5]
CVPR 2025 Tutorial:从视频生成到世界模型 | MMLab@NTU团队&快手可灵等联合呈现
量子位· 2025-06-05 16:32
MMLab@NTU团队 投稿 量子位 | 公众号 QbitAI 图像生成已经"卷"入日常,视频生成也不再是最初的"抖动幻影",而是跃升为能够讲故事、控制动作、进行较长时推理的高质量动态内容。 视频生成是否能成为通往世界模型的桥梁? 它是否具备成为可执行、可交互、可推理的智能中枢? 它是否正在走向支撑具身智能(Embodied Intelligence)的核心能力? 这些问题将在 CVPR 2025 Tutorial 《From Video Generation to World Models – 从视频生成到世界模型》中深入探讨。 如何将视频生成作为强大的视觉先验,赋能 AI 感知世界、理解交互、推理物理,从而迈向更通用、更具具身智能能力的世界模型。 本Tutorial(教程)汇聚来自学术界与产业界的一线研究者: 他们将在生成建模、3D理解、强化学习与物理推理等方向展开分享,探讨如何将生成能力转化为感知、预测与决策的智能基座。 日程安排一览(CVPR 2025 |6 月 11 日) | Time (GMT-5) | Programme | | --- | --- | | 09:20 - 09:30 | Ope ...
2025中国高阶智能辅助驾驶最新技术洞察:算力跃迁、数据闭环、VLA与世界模型
亿欧· 2025-06-05 13:42
报告行业投资评级 未提及相关内容 报告的核心观点 - 高阶智能辅助驾驶技术需在算法、数据、算力升级的同时解决安全短板,推动技术迭代与安全验证同步发展 [23] - 车端算法架构从模块化向端到端演进,一段式端到端VLA推动智能驾驶从“数据驱动”向“认知驱动”跃迁,多段式端到端E2E+VLM将被替代 [66] - VLA大模型“类人决策”特点将重塑智能辅助驾驶竞争格局,车企需平衡算法创新、工程落地与成本控制 [69] - 全栈自研仅头部新势力可长期维持,自研+外采将成多数车企主流选择,全栈外采在中低端车型仍有空间,行业呈“分层竞争、多元共存”格局 [83] - 尽管车企和政策推动L3落地,但大规模商业化需突破技术长尾问题与伦理争议,未来两年是关键窗口期,L3规模化上车进度可能放缓 [99] 根据相关目录分别进行总结 中国高阶智能辅助驾驶市场背景 - 高阶辅驾ODD再扩展:未提及具体内容 - 科技平权与技术普惠:未提及具体内容 - 事故焦虑与安全冗余:今年部分头部车企智能辅助驾驶NOA功能事故暴露技术边界与用户认知错配,引发安全信任危机;工信部发文规范宣传,为行业过热宣传降温;技术需在多方面升级同时解决安全短板 [21][23] - 政策护航与理性宣传:2025年4月16日,工信部发布通知规范智能网联汽车驾驶辅助功能宣传及技术验证,禁止夸大能力,要求功能验证周期与用户安全教育 [23] 中国高阶智能辅助驾驶技术洞察 高阶智能辅助驾驶技术洞察 - 解码算力、数据、算法的技术底层逻辑:未提及具体内容 高阶智能辅助驾驶算力洞察 - 车端算力:向千级TOPS跃迁,大算力芯片加速普及,国产芯片未来可期;目前国内量产芯片多≤200TOPS,未来500 - 1000TOPS+芯片将成主流;车端受硬件算力限制,依赖云端大模型,架构向端到端转型;未来车端将实现端到端大模型本地化部署,车规级芯片算力上限将突破 [42][43][44] - 云端算力:未提及具体内容 高阶智能辅助驾驶数据洞察 - 数据难题:未提及具体内容 - 数据采集:未提及具体内容 - 定位技术:未提及具体内容 高阶智能辅助驾驶算法洞察 - 端到端、VLA、世界模型:车端算法以端到端架构为基础,VLM辅助E2E处理复杂决策,VLA融合多模态信息提升泛化能力;云端模型从模仿学习演进至生成式世界模型,构建闭环训练系统支撑车端模型泛化能力升级 [61] - 算法架构:从模块化到多段式端到端再到一段式端到端演进,一段式端到端VLA推动智能驾驶跃迁,多段式端到端E2E+VLM将被替代 [65][66] - VLA:起源于2023年谷歌探索,2025年上车引领智能辅助驾驶升级,但面临算力、数据成本、推理延迟等挑战,需强化多模态融合、车云协同 [68][69] 中国高阶智能辅助驾驶竞合分析 企业梯队与产业图谱 - 未提及具体内容 开发策略与合作模式 - 开发策略:主机厂智能辅助驾驶方案开发策略分软硬全栈自研、自研+外采、软硬全栈外采;全栈自研技术壁垒高但资金/人才门槛高,自研+外采平衡成本与技术,全栈外采快速量产、成本可控 [82] - 合作模式:包括全栈自研、自研+外采、全栈外采;全栈自研仅头部新势力可维持,自研+外采成主流,全栈外采在中低端车型有空间 [83] 中国高阶智能辅助驾驶趋势洞察 乘用车L3商业化进展 - 2025年主机厂陆续发布L3、L4量产规划,数据积累与政策协同推动安全升级;L3级自动驾驶ODD限定在高速路段,L4级可在城市限定区域运行;L3大规模商业化需突破技术长尾问题与伦理争议,未来两年是关键窗口期,规模化上车进度可能放缓 [96][97][99]
图灵奖得主杨立昆:中国人并不需要我们,他们自己就能想出非常好的点子
AI科技大本营· 2025-06-02 15:24
大语言模型的局限性 - 当前大语言模型仅擅长信息检索和已有解决方案的复述 无法进行真正的抽象思考、推理和规划 [3][5][6] - 模型通过统计规律生成答案 本质是模式匹配游戏 无法创造新事物或提出正确问题 [5][6][18] - 训练数据已达边际效益递减 天然文本数据接近耗尽 合成数据成本高且回报有限 [11][13][14] AI发展的新范式方向 - 未来AI系统需具备理解物理世界、持久记忆、推理和规划四大核心能力 [29][37][38] - JEPA架构通过非生成式方法学习世界抽象表征 可预测物理规律并实现真正规划 [44][47][49] - 视频数据训练比纯文本更高效 儿童通过10^14字节视觉数据即可掌握基础物理规律 [36][37] 开源与闭源竞争格局 - 开源生态创新速度显著快于闭源 全球协作可加速技术突破 [50][53] - DeepSeek案例证明中国团队具备独立创新能力 2015年ResNet论文成为全球被引最高单篇论文 [3][53] - 实际部署中开源模型成本更低且可控 Llama等开源引擎正被广泛采用 [51] 行业投资与商业化前景 - 当前AI投资主要用于推理基础设施扩建 而非短期技术突破 [19][20] - 消费级AI应用已获验证 Meta AI用户达6亿 但企业级部署仍面临可靠性挑战 [21][24] - 专家系统历史表明AI需避免过度炒作 新范式需3-5年才能成熟应用 [25][30]
SSM+扩散模型,竟造出一种全新的「视频世界模型」
机器之心· 2025-05-31 12:00
研究背景与核心创新 - 研究结合状态空间模型(SSM)、扩散模型和世界模型等前沿技术,开发出新型视频世界模型,实现长期记忆与空间一致性的平衡 [1][9] - 传统视频扩散模型受限于注意力机制,难以维持长期一致性,导致环境模拟失真 [3][4][6] - 创新点在于采用Mamba的逐块扫描方案,配合局部注意力机制,显著提升长期记忆能力同时保持计算效率 [9][15][16] 技术架构设计 - 采用空间主/时间次的token排序方式,确保因果约束并防止未来信息泄露 [11] - 提出逐块重新排序方法:将token序列分解为(b_h,b_w,T)块,通过调整块大小平衡时间相关性与空间一致性 [13][15] - 引入帧局部注意力模块,采用窗口大小为k的因果注意力机制增强短期一致性 [16] - 动作条件处理:通过MLP处理连续动作值,直接学习离散动作嵌入实现交互控制 [17] 训练与推理优化 - 改进训练方案:保持随机长度前缀完全无噪声,强制模型学习长期依赖性 [18] - 推理阶段仅需维护前k帧KV缓存和块SSM状态,实现恒定内存占用和生成速度 [21] - 训练成本随上下文长度线性增长,显著优于传统二次复杂度模型 [39] 实验性能表现 Memory Maze数据集 - 检索任务(400帧):SSIM达0.898,显著优于Mamba2(0.747)和因果Transformer(0.829) [25] - 推理任务(224帧):SSIM达0.855,优于所有次二次模型 [26] - 长期记忆能力与全上下文因果Transformer(SSIM 0.914)接近 [25][27] TECO Minecraft数据集 - 推理任务(50帧):SSIM达0.454,优于DFoT(0.450)和25帧上下文因果Transformer(0.417) [33] - 能准确预测已探索区域,而有限上下文模型失效 [36] 效率优势 - 训练时间线性扩展,推理保持恒定内存和计算成本 [39] - 单次前向传递速度显著快于全注意力机制 [39]
具身进化·无界未来:这场论坛引领具身智能模型革命新浪潮
机器之心· 2025-05-30 17:33
具身智能技术发展 - 具身AI模型与人形机器人结合为AGI进入物理世界提供新可能,多模态大模型和世界模型推动具身智能进化 [1] - 新型大物理模型(如CoA行动链)在泛化性、端到端训练和统一大小脑功能上优于传统思维链(CoT),并已开发世界模型、仿真平台等工具 [6] - 脉冲神经网络实现机械臂类脑仿生控制,通过仿生算法和计算神经结构达成复杂环境下的自适应与灵巧操作 [10] 产业应用与商业化路径 - 智能机器人需满足V(感知)-L(理解)-A(行动)闭环,产品化需聚焦用户场景划分、技术交叉点及低失效成本场景 [8] - 视觉大模型(VLM)通过开源强化学习框架提升机器人环境感知与决策能力,联汇科技展示VLM-R1框架及终端联动案例 [12] - 模块化关节设计颠覆传统机器人开发,星际光年开源方案使灵巧手成本与周期显著降低 [12] 行业生态与未来展望 - 张江依托"一中心、两基地"布局推动人形机器人产业加速,集聚科研资源完善政策环境 [4] - 世界模型和Scaling Law被视为具身智能算法潜力方向,生成式AI可缩小虚拟与现实差距 [13] - 工业搬运、商超展厅为优先落地场景,预计5-10年内或进入C端家庭市场 [13] - 合成数据可百倍放大真实数据价值,解决训练数据稀缺问题,仿真数据在泛化性和采集效率上优势显著 [14]
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI
机器之心· 2025-05-30 12:16
大模型智能体可用性瓶颈 - 当前大模型智能体应用主要集中在专业领域如代码生成、科研辅助等,在大众日常场景中普及率较低 [1] - 核心制约因素并非模型能力不足,而是Agentic ROI(投资回报率)未达实用化门槛 [1][3] - Agentic ROI衡量信息收益与使用成本比值,需同时满足信息质量阈值和成本节省比例要求 [4] Agentic ROI关键构成要素 - Information Quality:智能体生成信息的准确性和完整性 [5] - Human Time/Agent Time:人类与智能体完成任务的耗时对比 [5] - Interaction Time:用户与智能体交互过程的时间消耗 [5] - Expense:模型调用和API使用的经济成本 [5] 当前应用场景矛盾 - 高人力成本场景(如科研)因替代效应显著而ROI较高 [7] - 日常场景(如电商)因任务简单且交互成本低,智能体边际价值不明显 [7] - 额外交互成本和延迟导致日常场景Agentic ROI偏低 [7] 发展路径优化策略 - 采用「之字形」发展模式:先规模化提升信息质量,后轻量化降低使用成本 [8][9] - OpenAI模型系列(o1-mini到o3-mini)验证该路径有效性,新一代小模型在保持性能同时降低60%推理费用 [9] 规模化提升阶段 - 预训练规模化:扩大模型参数/数据量,扩展上下文窗口和记忆机制 [11] - 后训练规模化:通过用户反馈构建数据飞轮实现持续优化 [12] - 推理时规模化:构建多模态世界模型,支持复杂任务处理 [13] - 多智能体协作和工具调用扩展可提升任务分解能力 [15] 轻量化优化阶段 - 记忆机制复用历史知识减少重复计算 [18] - 模型压缩技术可降低50%推理延迟而不显著影响性能 [18] - 优化推理策略避免冗余链条,硬件升级(如Groq芯片)提升实时响应 [18] - 主动意图理解设计可降低30%用户交互时间 [18]
腾讯研究院AI速递 20250530
腾讯研究院· 2025-05-29 23:55
开源AI模型 - DeepSeek-R1新版本开源,编程能力超越Claude 4 Sonnet,与o4-mini性能相当 [1] - 新模型具备深度推理能力、自然文本生成、支持30-60分钟长时思考,能完美执行复杂代码 [1] - 实测在3D动画、网站设计和复杂推理问题上表现优异,思考过程更稳定,能处理长链条推理 [1] AI视频创作 - 可灵2.1上线,价格降低65%,效果和速度均有提升,形成标准版、高品质版、大师版三档分层 [2] - 高品质版效果媲美旧版大师版,支持1080P画质,运动效果出色,但仅支持图生视频 [2] - 新版本性价比显著提升,普通用户适合选择高品质版,商业级制作可搭配大师版 [2] 腾讯产品AI升级 - 腾讯元宝、ima、搜狗输入法、QQ浏览器等产品接入DeepSeek R1最新版,从开源到上线仅用不到1天 [3] - 用户可在腾讯多款产品中选择DeepSeek模型R1深度思考,实现免费不限量使用 [3] - 腾讯坚持双模型驱动,选择更先进的模型并第一时间部署上线 [3] AI浏览器创新 - Opera发布首款"AI Agent"浏览器Opera Neon,重新定义浏览器在代理网络中的角色 [4] - Opera Neon由Neon Chat(聊天)、Neon Do(执行网页任务)和Neon Make(复杂创作)三大功能组成 [4] - Neon Make利用云技术执行复杂任务如生成报告、设计游戏原型和构建Web应用,离线时也能工作 [4] 3D大模型升级 - VAST升级Tripo Studio,推出智能部件分割、贴图魔法笔刷、智能低模生成和万物自动绑骨四大功能 [5] - 智能部件分割实现一键拆建,智能低模生成在保留细节前提下大幅减少面数 [5] - 万物自动绑骨功能能快速完成骨骼权重分配,非专业人士也能完成全流程3D创作,效率提升10倍以上 [5] 自动驾驶与实时视频生成 - 自动驾驶大牛创立Odyssey,推出世界模型实现视频实时生成,速度达40毫秒/帧,支持实时交互 [6] - 该技术通过真实生活视频学习像素和动作,采用窄分布模型架构解决自回归建模挑战 [6] - Odyssey已获2700万美元融资,预览版由H100 GPU集群支持,输出30FPS的5分钟连贯交互视频 [6] AI科学研究 - AI科学家Zochi的论文被顶会ACL主会录用,成为首个独立通过A*级别会议同行评审的AI系统 [7] - Zochi的论文展示了多轮攻击方法,在GPT-3.5上成功率达100%,GPT-4上达97% [7] - Zochi能自主完成从文献分析到同行评审的科学研究过程,论文质量高 [7] 具身机器人商业化 - 优理奇推出轮式双臂机器人Wanda 2.0,售价8.8万元起,已量产交付,具备自主完成复杂长序列任务的能力 [8] - Wanda 2.0搭载融合触觉的预训练多模态大模型UniTouch和长序列任务规划模型UniCortex [8] - 优理奇通过全栈自研降低70%成本,面向类C端小B客户市场,已完成数亿元融资 [8] 机器人技术升级 - 波士顿动力Atlas机器人升级,具备3D空间感知和实时物体追踪能力,可360°旋转头部和腰部 [9] - 技术核心包括2D物体检测系统、基于关键点的3D空间定位以及SuperTracker物体位姿跟踪系统 [9] - 系统融合运动学数据、视觉数据和力反馈,实现精确手眼协调,团队正致力于构建统一基础模型 [9] AI行业趋势 - Google CEO Pichai认为AI是比互联网更大的平台级变革,未来将走向多终端并行 [10] - AI进入构建可用产品的第二阶段,搜索正转变为能代表用户执行任务的Agent [10] - AI带来的关键变革在于交互方式转变和创作门槛降低,第三阶段将是AI与物理世界结合 [10]