Workflow
全模态智能
icon
搜索文档
AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白
机器之心· 2025-12-28 12:44
行业趋势:从多模态拼接迈向全模态统一智能 - 多模态大语言模型正经历快速范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频等信息的统一全模态大模型 [2] - 该转变的驱动力源于真实物理世界的复杂性,人类通过观察和分析视觉、听觉、空间动态等多模态信息来理解世界 [3] - 面向真实物理世界的先进全模态智能架构,不仅需对多模态交互做出正确响应,还应具备遵循物理世界规律的感知与推理能力 [4] 行业痛点:现有评测体系存在不足 - 当前评测体系难以跟上模型能力扩张,存在模态覆盖不完整、模态间缺乏真实物理世界关联、任务长期局限于文本输出等问题 [4] - 这使得研究者无法全面评估模型在复杂物理世界场景中的实际能力,也无法进行公平、统一的跨模态比较 [4] - 现有跨模态基准多数局限于以文本为中心的有限模态,鲜有工作能彻底涵盖文本、图像、视频、音频等全模态信息 [16] - 现有基准输出形式单一,多数仅考察文本输出,几乎不涉及多模态生成,也缺乏语音驱动的多模态交互任务 [16] - 现有数据集常将不同模态信息简单拼接,忽略了模态间的关联性与耦合性,导致信息密度低,不要求模型进行真正的跨模态理解和推理 [16] 公司产品:FysicsWorld 评测基准 - 飞捷科思智能科技(Fysics AI)与复旦大学认知与智能技术实验室共同推出了全球首个面向真实物理世界的统一全模态评测基准 FysicsWorld [4] - 该基准能够评测模型在图像、视频、音频与文本间进行双向输入与输出的能力,覆盖模型对真实物理世界场景的感知、理解、生成及跨模态推理等核心能力 [4] - FysicsWorld 包括具备高质量样本的 16 大任务,涉及上百类真实开放域场景,并精心设计了跨模态信息之间的依赖关系与互补性 [6] - 基准创新地提出了跨模态互补性筛选策略,通过严格的模态依赖性验证机制,确保每个样本求解时必须依赖多种模态的信息融合,有效避免“单模态捷径”带来的偏差 [8] - 通过大量实验证明,FysicsWorld 能够清晰揭示当前全模态模型在融合多模态理解推理、语音驱动人机交互、跨模态生成及物理场景感知等环节的真实短板 [10] 产品细节:任务体系与数据构建 - FysicsWorld 构建了一套从基础感知到高阶交互的系统化任务体系,包含 16 项多模态任务 [15] - 任务体系首次实现了对全模态模型从单模态到多模态、从静态到动态、从时序到空间、从感知到生成与推理的连续覆盖 [17] - 在数据构建阶段采用了严谨的多源融合流程,通过人工审校与半自动化辅助校对的双重机制,对语义一致性、表达自然度和场景匹配性进行严格筛查 [22] - 在语音驱动的人机交互任务中,构建了闭环数据构造与验证流程,基于 10 余种不同的真人语音音色构造真实自然且高度拟人化的语音交互数据 [22] 评测结果:模型能力现状与瓶颈 - 研究团队基于 FysicsWorld 对国际上 30 余个最先进的 AI 模型进行了系统性评测 [27] - 在图像、视频和音频理解的基础任务中,GPT-5 与 Gemini-2.5-Pro 等闭源模型整体领先,开源全模态模型在部分任务上逐渐缩小差距,但在长视频语义链路、复杂听觉理解及高难度推理中仍显薄弱 [28] - 当任务切换到真实物理场景下的多模态协作时,模型性能普遍出现明显下滑,尤其是在必须依赖图像、视频、音频之间真实互补关系才能作答的任务中,短板暴露无遗 [31] - 主流模型在面向真实世界的多模态对齐、信息融合、跨模态生成以及物理场景适应能力等关键环节,仍存在显著不足 [31] 未来展望:全模态智能的发展方向 - 面向真实物理世界的全模态智能的下一阶段,不仅需要继续巩固单模态能力的根基,更需要在模态融合策略上进行系统性优化,实现多模态信息在时空、语义及物理约束维度的协调与整合 [35] - 跨模态动态推理、场景化理解与生成能力,将成为衡量下一代全模态模型核心竞争力的关键指标 [35] - FysicsWorld 为面向真实物理世界的全模态智能提供了可控、系统且可比较的能力映射工具,使研究者能够清晰洞察模型在多模态感知、物理场景信息融合和跨模态推理生成上的真实水平 [36]
从豆包手机谈起:端侧智能的愿景与路线图
AI前线· 2025-12-22 13:01
豆包手机助手的技术定位与核心突破 - 字节跳动发布的豆包手机助手被定义为行业首款系统级GUI Agent,标志着大模型应用从“对话”迈向“行动”的重要跃迁,它深度耦合于操作系统底层,具备跨应用感知与操作能力,是一个“超级中枢”[2] - 豆包手机助手是强化学习驱动的视觉语言模型技术路线的集大成者,其核心技术GUI Agent在2023至2025年间经历了从“外挂式框架”到“模型原生智能体”的根本性范式转变[4][5] - 该产品在工程侧实现了关键突破,凭借定制OS优势实现了“非侵入式”的系统级接管,核心要素包括GPU Buffer直读以降低延迟,以及构建虚拟屏幕后台进程以避免抢占用户焦点[7][10] - 在模型侧采用端云协同架构:端侧模型负责意图识别与任务路由,实现毫秒级响应;云侧模型处理多步骤、跨应用的复杂任务,并区分“思考”与“非思考”两种模式以平衡速度与成功率[8] - 其核心护城河在于建立了基于强化学习的数据闭环,通过高保真OS沙盒环境,模型经历了数百万次轨迹的探索与优化,使其泛化能力显著优于学术界开源模型[10] GUI Agent的技术演进路径 - 早期阶段(2023-2024)采用外挂式框架,通过提示工程将界面转化为文本或带数字标记的截图,模型能力受限于外部工具精度,并未真正“看见”GUI环境[4] - 后续阶段(2024)转向模仿学习驱动的视觉语言模型方案,如智谱的CogAgent等,直接基于像素输入理解界面,实现了感知层面的“原生化”[5] - 当前主流(2024-2025)是强化学习驱动的视觉语言模型,如伯克利的DigiRL、智谱的AutoGLM、字节的UI-TARS等,使得智能体能在与OS环境的持续交互中优化策略,具备自主执行任务的能力[5] 当前技术面临的挑战与局限性 - **生态覆盖有限**:面对微信、淘宝、小红书等高频应用,智能体常因无法精准调起原生应用,被迫降级为网页搜索或通用问答,“服务直达”退化为“内容检索”[10][11] - **复杂任务能力不足**:测评显示,豆包手机助手在59.86%的复杂任务上取得成功,失败案例集中在复杂指令解析精度不足、动态环境执行鲁棒性缺失、长程交互上下文管理混乱等方面[10][11] - **隐私安全风险**:当前架构严重依赖云侧GUI模型处理屏幕理解与操作,相当于将用户数字生活映射至云端,触及了应用厂商的数据红线,已导致对微信、淘宝等核心应用的支持被暂停[9] - **个性化与主动服务能力不足**:本质仍是“用户下令-智能体执行”的被动工具,缺乏对用户深度理解,无法提供基于个人习惯的主动服务[12] 端侧智能的未来演进方向 - **端侧智能(隐私安全)**:未来AI手机生态必须确立“端侧原生、端云协同”原则,涉及用户隐私、实时交互的私有数据必须在端侧形成闭环,云侧则处理通用逻辑与专业需求[12][14] - **全模态智能(环境感知)**:下一代感知需从“多模态”走向“全模态”,在统一架构下融合文本、图像、视频、音频等信息,并从“静态采样”走向“动态流式”处理,实现实时增量式理解与决策[18][19][20] - **自主智能(复杂决策)**:需在泛化性、自主性与长程性三个维度实现突破,让智能体具备零样本泛化能力、应对动态环境的反思与错误恢复机制,以及管理长程交互上下文的类人记忆架构[22][24][25][27] - **主动智能(个性化服务)**:需完成从“被动响应”到“主动智能”的范式跃迁,具备基于用户历史行为和环境状态的意图预测能力,并通过“预先填充确认”等方式大幅降低用户交互成本[29][30][31] 行业竞争格局与未来展望 - **短期(1年内)**:预计更多手机助手将上市,应用厂商与操作系统厂商之间的“软硬对抗”将加剧,可能引发类似Web端“爬虫与反爬虫”的GUI层面技术对抗[35] - **中期(2~3年)**:竞争焦点将转向“个性化”,端侧模型通过持续学习用户数据,将进化成“持续成长的个人专属助手”,形成用户无法迁移的体验壁垒[36] - **长期(3-5年)**:端云协同架构走向成熟,高隐私与高频任务由端侧闭环处理,超复杂任务路由至云侧,同时将催生以智能座舱、AI眼镜为代表的AGI时代新型端侧硬件形态[38][40] - 大模型能力密度遵循“每3.5个月翻倍”的法则,技术发展正从“尺度驱动”转向“能效驱动,通过稀疏模型架构、软硬协同加速等技术,让更小模型实现更强性能,是端侧智能普及的关键[15][16]