世界模型

搜索文档
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI
机器之心· 2025-05-30 12:16
大模型智能体可用性瓶颈 - 当前大模型智能体应用主要集中在专业领域如代码生成、科研辅助等,在大众日常场景中普及率较低 [1] - 核心制约因素并非模型能力不足,而是Agentic ROI(投资回报率)未达实用化门槛 [1][3] - Agentic ROI衡量信息收益与使用成本比值,需同时满足信息质量阈值和成本节省比例要求 [4] Agentic ROI关键构成要素 - Information Quality:智能体生成信息的准确性和完整性 [5] - Human Time/Agent Time:人类与智能体完成任务的耗时对比 [5] - Interaction Time:用户与智能体交互过程的时间消耗 [5] - Expense:模型调用和API使用的经济成本 [5] 当前应用场景矛盾 - 高人力成本场景(如科研)因替代效应显著而ROI较高 [7] - 日常场景(如电商)因任务简单且交互成本低,智能体边际价值不明显 [7] - 额外交互成本和延迟导致日常场景Agentic ROI偏低 [7] 发展路径优化策略 - 采用「之字形」发展模式:先规模化提升信息质量,后轻量化降低使用成本 [8][9] - OpenAI模型系列(o1-mini到o3-mini)验证该路径有效性,新一代小模型在保持性能同时降低60%推理费用 [9] 规模化提升阶段 - 预训练规模化:扩大模型参数/数据量,扩展上下文窗口和记忆机制 [11] - 后训练规模化:通过用户反馈构建数据飞轮实现持续优化 [12] - 推理时规模化:构建多模态世界模型,支持复杂任务处理 [13] - 多智能体协作和工具调用扩展可提升任务分解能力 [15] 轻量化优化阶段 - 记忆机制复用历史知识减少重复计算 [18] - 模型压缩技术可降低50%推理延迟而不显著影响性能 [18] - 优化推理策略避免冗余链条,硬件升级(如Groq芯片)提升实时响应 [18] - 主动意图理解设计可降低30%用户交互时间 [18]
腾讯研究院AI速递 20250530
腾讯研究院· 2025-05-29 23:55
开源AI模型 - DeepSeek-R1新版本开源,编程能力超越Claude 4 Sonnet,与o4-mini性能相当 [1] - 新模型具备深度推理能力、自然文本生成、支持30-60分钟长时思考,能完美执行复杂代码 [1] - 实测在3D动画、网站设计和复杂推理问题上表现优异,思考过程更稳定,能处理长链条推理 [1] AI视频创作 - 可灵2.1上线,价格降低65%,效果和速度均有提升,形成标准版、高品质版、大师版三档分层 [2] - 高品质版效果媲美旧版大师版,支持1080P画质,运动效果出色,但仅支持图生视频 [2] - 新版本性价比显著提升,普通用户适合选择高品质版,商业级制作可搭配大师版 [2] 腾讯产品AI升级 - 腾讯元宝、ima、搜狗输入法、QQ浏览器等产品接入DeepSeek R1最新版,从开源到上线仅用不到1天 [3] - 用户可在腾讯多款产品中选择DeepSeek模型R1深度思考,实现免费不限量使用 [3] - 腾讯坚持双模型驱动,选择更先进的模型并第一时间部署上线 [3] AI浏览器创新 - Opera发布首款"AI Agent"浏览器Opera Neon,重新定义浏览器在代理网络中的角色 [4] - Opera Neon由Neon Chat(聊天)、Neon Do(执行网页任务)和Neon Make(复杂创作)三大功能组成 [4] - Neon Make利用云技术执行复杂任务如生成报告、设计游戏原型和构建Web应用,离线时也能工作 [4] 3D大模型升级 - VAST升级Tripo Studio,推出智能部件分割、贴图魔法笔刷、智能低模生成和万物自动绑骨四大功能 [5] - 智能部件分割实现一键拆建,智能低模生成在保留细节前提下大幅减少面数 [5] - 万物自动绑骨功能能快速完成骨骼权重分配,非专业人士也能完成全流程3D创作,效率提升10倍以上 [5] 自动驾驶与实时视频生成 - 自动驾驶大牛创立Odyssey,推出世界模型实现视频实时生成,速度达40毫秒/帧,支持实时交互 [6] - 该技术通过真实生活视频学习像素和动作,采用窄分布模型架构解决自回归建模挑战 [6] - Odyssey已获2700万美元融资,预览版由H100 GPU集群支持,输出30FPS的5分钟连贯交互视频 [6] AI科学研究 - AI科学家Zochi的论文被顶会ACL主会录用,成为首个独立通过A*级别会议同行评审的AI系统 [7] - Zochi的论文展示了多轮攻击方法,在GPT-3.5上成功率达100%,GPT-4上达97% [7] - Zochi能自主完成从文献分析到同行评审的科学研究过程,论文质量高 [7] 具身机器人商业化 - 优理奇推出轮式双臂机器人Wanda 2.0,售价8.8万元起,已量产交付,具备自主完成复杂长序列任务的能力 [8] - Wanda 2.0搭载融合触觉的预训练多模态大模型UniTouch和长序列任务规划模型UniCortex [8] - 优理奇通过全栈自研降低70%成本,面向类C端小B客户市场,已完成数亿元融资 [8] 机器人技术升级 - 波士顿动力Atlas机器人升级,具备3D空间感知和实时物体追踪能力,可360°旋转头部和腰部 [9] - 技术核心包括2D物体检测系统、基于关键点的3D空间定位以及SuperTracker物体位姿跟踪系统 [9] - 系统融合运动学数据、视觉数据和力反馈,实现精确手眼协调,团队正致力于构建统一基础模型 [9] AI行业趋势 - Google CEO Pichai认为AI是比互联网更大的平台级变革,未来将走向多终端并行 [10] - AI进入构建可用产品的第二阶段,搜索正转变为能代表用户执行任务的Agent [10] - AI带来的关键变革在于交互方式转变和创作门槛降低,第三阶段将是AI与物理世界结合 [10]
视频实时生成可交互! 两位自动驾驶大牛创业世界模型:40毫秒/帧,无需任何游戏引擎,人人免费可玩
量子位· 2025-05-29 15:19
一水 发自 凹非寺 量子位 | 公众号 QbitAI 李飞飞押注的世界模型领域,迎来两位自动驾驶大牛创业新成果! 无需任何游戏引擎,AI能以40毫秒/帧想象并实时生成视频。 40毫秒/帧啥概念? 人类眨一次眼都需要100~400毫秒,所以现在AI几乎可以一瞬间创造视频了。 而且无需高端显卡,玩家可以实时观看,并与AI生成的世界交互了。 就像是在 探索一个平行宇宙 的感觉~ 那么,新玩家Odyssey究竟有哪些亮点呢? 世界模型≠视频模型 一上来,Odyssey就在最新官方博客中解释: 世界模型≠视频模型 。 他们认为,乍一看世界模型好像是视频生成模型的完美应用,但后者的架构、参数和数据集实际上并不适用于前者。 而除了产品迅速引人关注,更值得说道的还是其背后研发公司。 两位联合创始人 Oliver Cameron 和 Jeff Hawke 均在自动驾驶领域有着深厚从业背景,虽然公司成立不到2年,但一亮相就获得了资本青 睐。 迄今为止,Odyssey已从EQT Ventures、谷歌GV和Air Street Capital等投资机构筹集了 2700万美元 (约合人民币1.9亿),皮克斯创始 人/图灵奖得主Ed ...
智驾的遮羞布被掀开
虎嗅APP· 2025-05-26 21:57
智能驾驶技术路线分化 - 行业进入端到端2.0阶段,技术路线无统一标准,理想、小鹏、华为分别推出VLA、世界基座模型、WEWA架构等差异化方案 [3] - 小鹏布局云端72B参数世界基座模型(车端模型的35倍),计划覆盖汽车、机器人及飞行汽车业务,自研图灵芯片支持30B参数模型部署 [5] - 理想自研LLM基座模型替代第三方模型,以解决3D世界理解不足导致的幻觉问题,但受限于自研芯片"舒马赫"进展缓慢,仍依赖英伟达Thor芯片 [7] - 华为采用多模态基座模型+MoE架构,通过多传感器输入生成轨迹和场景意图,目标实现L3级十秒预警能力 [9] 数据训练瓶颈与仿真解决方案 - 行业面临优质数据短缺困境,人工标注成本高且难例数据获取困难,华为指出Corner case数据是训练关键缺口 [11] - 厂商转向世界模型仿真生成数据,真数据与合成数据比例达1:2,可降低采集成本并丰富场景类型 [12] - 地平线认为99%司机行为不值得学习,仿真将成为核心训练手段,提出"AI教AI"的终极形态 [12][13] - 当前仿真数据质量仍不及真实数据,技术差距因模型探索门槛拉大 [13] 技术商业化与行业格局演变 - L3级技术需"重技术+强运营"体系,责任归属从用户转向车企,要求硬件冗余与持续维护能力 [16] - 城区自动驾驶难度是高速场景的10-100倍,头部厂商通过技术滚雪球效应加速领先 [16] - 供应商集中化趋势明显,量产经验、交付周期及成本成为主机厂筛选核心标准,未量产厂商基本出局 [17] - 行业进入分化期,无实质技术支撑的营销话术失效,市场将呈现强者恒强格局 [15][17]
智驾的遮羞布被掀开
虎嗅· 2025-05-26 10:47
智驾技术发展现状 - 车企普遍采用端到端模型训练自动驾驶软件,华为、理想、小鹏和特斯拉已证明其可行性,但系统存在黑盒风险,可能出现不可预测的问题[2] - 端到端技术源于深度学习,通过简化算法并依赖海量数据训练提升软件能力,但无法完全解决L3级自动驾驶的安全需求[2][3] - 行业进入端到端2.0阶段,技术路线分化,理想推出VLA架构,小鹏开发云端世界基座模型,华为采用WEWA架构,均试图突破现有技术瓶颈[4][14] 主要车企技术路径差异 - 小鹏构建72B参数量的世界基座模型,是主流车端模型的35倍以上,计划应用于汽车、机器人和飞行汽车,并自研图灵芯片支持30B参数模型部署[8] - 理想自研LLM基座模型替代第三方方案,针对自动驾驶优化3D世界理解能力,但因芯片研发滞后仍依赖英伟达Thor芯片[10] - 华为打造多模态基座模型,通过MoE架构实现场景化能力调用,重点解决L3级难例场景识别和十秒预警能力[14] 数据挑战与仿真技术应用 - 行业面临优质数据获取难题:人工标注成本过高,难例数据稀缺,真数据与合成数据比例已达1:2[15][22] - 世界模型成为解决方案,通过虚拟数据生成降低采集成本,地平线认为99%人类驾驶行为不值得学习,仿真将成为核心训练手段[22] - 当前仿真数据质量仍逊于真实数据,技术差距可能因模型研发能力分化而扩大[23][24] 行业竞争格局演变 - L3级技术将重塑商业模式,要求车企承担全生命周期维护责任,形成"重技术+强运营"体系[25] - 城区自动驾驶难度是高速场景的10-100倍,供应商面临更高技术门槛,未经验证的厂商将被淘汰[26] - 市场呈现强者愈强趋势,无实质技术支撑的营销概念(如无图NOA)将失效,头部企业通过量产能力和交付效率建立壁垒[26]
能空翻≠能干活!我们离通用机器人还有多远? | 万有引力
AI科技大本营· 2025-05-22 10:47
具身智能技术发展现状 - 具身智能成为AI领域热点方向,重点关注人形机器人载体上的感知、运动、决策能力[2] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域[5] - AI发展分为四个阶段:感知AI→生成式AI→自主智能体AI→物理AI,目前处于第三阶段向第四阶段过渡期[5] - 具身智能研究从传统精密控制向更智能化、通用化方向迈进,大模型能力提升推动这一转变[7] 技术演进路径 - 计算机视觉研究者正转向具身智能领域,因大模型压缩传统CV研究空间[8] - 自动驾驶技术是通向具身智能的重要桥梁,两者在感知、规划、控制模块高度相似[17] - 具身智能可分为"思维智能"与"行动智能",前者包括认知能力,后者关注环境互动[20] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型[25][28] 行业应用前景 - 家庭看护和家务服务是最基础、最现实的需求方向[48] - 检修类场景(如电力、汽车维修)是具身智能最具潜力的应用领域[49] - 工业制造场景中,人形机器人可能比传统自动化更具性价比优势[49] - 生产线机器人最容易落地,高危或高互动性工作最具挑战性[52] 关键技术挑战 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求[55] - 计算资源限制明显,高自由度系统控制困难且成本高昂[39] - 模型架构面临从分层决策到端到端再回归分层的演变[67] - 仿真环境精度不足,难以替代真实世界数据采集[60] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应与新任务应对能力[63] - 从确定性控制转向概率性思维,应对现实世界不确定性[64] - 从分析还原走向整体涌现,展现更强智能与动态逻辑性[64] - 从工具属性转向伙伴属性,实现更自然的协作交互[64] 商业化路径 - 开发者应聚焦专用型机器人而非追求通用能力[42] - 垂直场景配套大客户是具身智能落地的务实选择[44] - 工业领域因其可扩展性成为优先发展方向[45] - 技术从实验室到真实世界仍存在两个数量级的精度差距[46]
能空翻≠能干活,我们离通用机器人还有多远?
36氪· 2025-05-22 10:28
具身智能发展现状 - 具身智能成为AI领域热点方向,人形机器人作为载体受到重点关注 [1] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域 [3] - 英伟达提出AI发展四阶段论:感知AI→生成式AI→自主智能体AI→物理AI [3] - 具身智能发展仍处于早期爬坡阶段,离通用机器人还有较大距离 [31][32][33] 技术演进路径 - 大模型带动具身智能研究从精密控制向智能化、通用化方向迈进 [4] - 计算机视觉研究人员转向具身智能领域,因大模型提升了对物理世界的理解能力 [5] - 自动驾驶技术积累为具身智能提供重要基础,两者在感知、规划、控制模块高度相似 [15][16] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型 [21][22] 商业化落地挑战 - 硬件成本和开发门槛居高不下是制约普及的关键因素 [10] - 垂直场景优先落地,工业、检修、家庭陪护是最具潜力的三大应用方向 [41][42][44] - 实验室精度与工业需求存在两个数量级差距,需持续提升系统精度 [40] - 早期商业化需配套大客户提供真实反馈和场景打磨 [39] 关键技术瓶颈 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求 [47][48] - 计算资源限制和模型架构挑战制约系统性能提升 [46] - 仿真环境难以完全还原真实世界物理特性,影响数据质量 [52] - 需突破自监督探索、生成式合成数据、少样本学习等数据解决方案 [53] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应能力 [55] - 从确定性控制转向概率性思维,应对现实世界不确定性 [55] - 从工具属性转向伙伴属性,实现更自然的交互协作 [55] - 模仿学习与强化学习融合、多智能体协作将成为重要突破方向 [59][60]
谷歌IO大会点评
2025-05-21 23:14
纪要涉及的公司 谷歌 纪要提到的核心观点和论据 - **应对竞争增强 AI 搜索产品竞争力**:谷歌通过提升 AI 搜索器比例、推出升级版 AI 模式,使 AI 搜索产品月活跃用户达 15 亿;月均处理 tokens 达 480 万亿,较去年同期增长 50 倍,远超微软同期 50 万亿的处理量;今年资本开支预计 750 亿美元,云业务增速显著[2][3] - **原生多模态技术取得进展**:展示 native language understanding 功能,支持原生语音和音频输出;演示视频和图像生成产品 ImageFour 的更新[2][6] - **Google Lens APP 新增功能**:Project Xtra 改名为 Jennifer Live,实现实时屏幕共享和摄像头演示;增加实时投影、与 AI 助手互动等功能[2][7] - **提升算力支持生态系统**:2024 年等效 H100 算力接近 150 万,2025 年预计达到 450 万,但因生态系统消耗量大,仍需扩展计算能力[2][8] - **推出新的 AI 功能和技术**:推出基于 Gemini APP 的 AI agent(Action Intelligent),能主动操作用户手机并接入 MCP 接口;PC 端推出 agent mode 功能,与 Airbnb 等合作预约;推出 Chrome 浏览器扩展 Gmail on Chrome[9] - **利用生态系统增强 AI 应用**:通过整合安卓设备、Gmail 邮箱、Google 日历等,推出 personal context 功能,利用用户个人信息背景提供个性化服务[4][10] - **推出新的 AI 眼镜**:推出 Android XR AI 眼镜,与三星、高通、时尚眼镜公司合作,具备发短信、拍照、实时对话翻译等功能[11] - **构建下一代模型**:构建世界模型,从模拟世界各方面学习和理解,推动机器人技术发展,使 AI 系统能在现实世界有效运作[4][12] 其他重要但是可能被忽略的内容 - 谷歌提前发布 Jenna 2.5 Pro 预览版本,而非原计划在 520 当天发布[3] - 升级版 AI 模式输出内容更丰富、详细,包含更多图表总结,tokens 数量是传统 AI Overview 的两到三倍[4][5] - 全美范围内全面推出增强现实试穿功能,消费者可通过拍摄全身照片虚拟试穿衣物[5] - 谷歌 JUMPER 2.5 Po 模型 TOKEN 调用量增长最快,微软月均消耗 50 万亿 TOKEN,谷歌达到 48 万亿 TOKEN,供不应求[13] - 谷歌全面武装产品线上的 AI 能力,包括 QQ 浏览器、手机端及 PC 端,以提升整体竞争力[13]
见谈 | 商汤绝影王晓刚:越过山丘,我如何冲刺智驾高地?
21世纪经济报道· 2025-05-20 20:31
公司技术发展历程 - 2017年王晓刚团队在论文中首次提出端到端多级场景描述网络(MSDN)架构,比特斯拉早6年探索该技术 [2] - 2017年与本田合作L4自动驾驶项目,采用纯视觉方案直接规划轨迹,但因硬件算力限制未能量产 [3] - 2018年推出SenseDrive DMS驾驶员监控系统,2018-2019年获得威马、安波福、伟世通、蔚来、广汽等10余家主机厂订单 [4] - 2021年推出SenseAuto Pilot-P实现L2+级辅助驾驶,2022年提出一段式端到端技术但行业条件不成熟 [4] - 2024年北京车展展示UniAD一段式端到端实车,11月发布AD Pro/Max/Ultra三大量产方案,年底与东风汽车落地量产 [5] 技术路线演进 - 早期受限于网络结构、硬件算力和行业认知,端到端方案未被广泛接受 [3] - 2022年ChatGPT出现后行业开始认可大模型,特斯拉FSD V12率先实现端到端量产 [5] - 2024年发现端到端存在数据瓶颈问题,转向世界模型+强化学习路线 [30][32] - 世界模型通过仿真生成"奥数题"级难题场景,突破人类驾驶行为天花板 [35][36] - 多模态大模型DriveAGI加入与世界模型交互,提升智驾系统安全确定性 [11] 商业模式与战略 - 采用白盒交付模式,与车企共享工具链、数据平台和超算中心 [10][39] - 定位汽车AI平台型公司,重点布局中低端市场,2025年新增广汽埃安、一汽红旗等客户 [11] - "太极模式"赋能车企自研团队,改造其研发体系并共建AI基础设施 [37][39] - 云端服务是核心业务盘,通过数据回流管道构建长期壁垒 [11][40] 行业竞争格局 - 智能座舱业务率先突破,2018年SenseDrive DMS落地威马等车企 [4] - 2024年小鹏、理想、Momenta、华为等竞相布局端到端方案 [5] - 与小米合作SU7座舱大模型,提升小爱同学多模态交互能力 [19][21] - 与蔚来长期合作DMS/OMS系统,开发3D gaze等创新功能 [22][23][24] 管理与企业文化 - "黑羊文化"强调创新与协作,在汽车行业进化为"太极模式" [8] - 通过引进主机厂人才和开发工具链平台化解决量产难题 [7] - 王晓刚管理风格亲力亲为,常驻一线与工程师共同解决问题 [10]
中金:维持第四范式跑赢行业评级 上调目标价至60港元
智通财经· 2025-05-19 11:05
核心观点 - 中金上调第四范式25e/26e收入预测3.5%/7%至64.76/77.38亿元,上调25e/26e调整后归母净利润预测至0.57/2.69亿元 [1] - 维持跑赢行业评级,上调目标价9.1%至60港元,对应35.9%上行空间 [1] - 公司1Q25收入10.77亿元同比+30.1%,毛利润4.44亿元同比+30.1%,毛利率41.2% [2] - 先知AI平台业务驱动收入超预期,一体机销售乐观 [2] 业务表现 - 1Q25总收入10.77亿元同比+30.1%,考虑子公司出表因素内生增速更高 [3] - 先知AI平台/SHIFT智能解决方案/式说AIGS服务收入占比分别为74.8%/19.7%/5.6%,核心业务集中度提升 [3] - 标杆用户数59个覆盖14行业,ARPU 1,167万元同比+31.3% [3] - 1Q25研发费用3.68亿元同比+5.7%,研发费用率34.2%同比-8ppt [4] 产品与技术 - 先知AI平台软件需求稳定增长,一体机硬件占比保持平稳 [4] - 发布SageOne IA一体机解决方案,支持主流模型,单机多任务处理效率+3x、推理性能提升5-10x [5] - 成立消费电子业务板块(Phancy),提供基于AI Agent的软硬件一体解决方案 [5] 战略布局 - AI agent应用在多行业落地,与致远互联合作探索OA领域Agent布局 [5] - Agent布局覆盖金融、能源电力、交通运输、运营商等重点行业,并向制造业、医疗、零售等领域渗透 [5]