Workflow
Multimodal Intelligence
icon
搜索文档
我国科研机构主导的大模型成果首次登上Nature
观察者网· 2026-02-07 09:15
核心观点 - 北京智源人工智能研究院在《Nature》上发表的Emu3模型,证明了仅使用“下一词预测”这一统一范式,即可让机器同时掌握看、听、说、写乃至行动等多模态能力,挑战了当前AI领域依赖专用模型拼接的主流技术路线 [1][21] 技术架构与突破 - **统一范式**:Emu3采用极简设计,仅通过“下一词预测”任务训练一个decoder-only Transformer模型,统一处理文本、图像、视频和机器人动作指令,无需复杂的编码器拼接或模态融合机制 [1][10] - **视觉分词器**:模型核心是一个高效的视觉分词器,能将512×512图像压缩为4096个离散符号(压缩比64:1),并将4帧视频片段同样压缩至4096个符号,使用包含32768个“词汇”的码本,通过三维卷积核原生捕捉视频时空信息 [8][9] - **性能表现**:在多项基准测试中,Emu3性能与专用模型持平或超越:图像生成人类偏好评估得分70.0,超越Stable Diffusion XL的66.9;视觉语言理解12项测试平均分62.1,与LLaVA-1.6的61.8持平;视频生成VBench评估得分81.0,超过Open-Sora-1.2的79.8 [11] - **规模定律**:研究证实多模态学习遵循可预测的规模定律,当训练数据翻倍时,文字到图像、图像到文字、文字到视频等任务的验证损失均以0.55的指数下降,基于小模型数据可高精度预测大模型性能(拟合优度>0.99,误差<3%) [12] 行业比较与定位 - **与Meta Chameleon比较**:两者均尝试统一多模态学习,但Emu3通过优化视觉分词器和训练策略,弥合了统一模型与专用模型之间的性能差距 [17] - **与OpenAI Sora比较**:Sora基于扩散模型,擅长视频生成但本质是生成器,需额外嫁接模型以实现理解;Emu3的自回归范式则天然统一生成与理解于单一模型内 [17][18] - **与Google Gemini比较**:Gemini整合多模态但仍依赖预训练视觉编码器和复杂融合机制;Emu3采用从零训练策略,虽计算成本更高,但获得了更纯粹、一致的多模态表征 [18] - **开放性优势**:团队承诺开源视觉分词器、训练代码和预训练权重,与OpenAI的封闭策略形成对比,为全球AI社区提供了可复现、可改进的新技术路线 [18] 应用潜力与商业化 - **部署效率**:模型基于标准Transformer架构,可复用大语言模型成熟的推理基础设施(如vLLM、PagedAttention),团队已开发支持无分类器引导的推理后端,实现低延迟高吞吐 [19] - **应用统一性**:单一模型架构可支撑图像生成、视觉问答、视频理解等多种能力,降低多模型部署带来的运维复杂度和资源浪费 [19] - **交互变革**:模型同时具备生成与理解能力,能处理图文视频任意组合,支持如根据产品视频生成图文说明书、描述场景生成视频并实时问答等新型交互 [20] - **垂直领域**:在教育、电商、医疗等领域有应用潜力,例如作为统一助手生成教学内容、处理电商产品图片与问答、辅助医疗影像分析与报告 [20] 行业意义与影响 - **范式挑战**:Emu3的成功是对当前主流多模态技术路线的根本性挑战,证明了一条更简洁、统一的道路可行,可能引发AI领域的范式转移 [21] - **中国AI研究标杆**:此项原创性工作为中国AI研究树立了新标杆,展示了在顶级学术期刊提出并验证不同于海外巨头的技术路线的能力 [21] - **具身智能路径**:在CALVIN机器人操控基准测试中,Emu3在“连续完成五个任务”上达到87%成功率,展示了其作为通往具身智能捷径的潜力 [14][15] - **世界模型前景**:模型能够根据烹饪视频前两秒预测后续画面,展现了“世界模型”的潜力,为整合感知、语言和行动的通用人工智能提供了有希望的道路 [15][22]
Google and Anthropic Drop AI Prices and Release New Models
PYMNTS.com· 2025-11-26 08:55
产品发布与战略定位 - 谷歌于11月18日推出Gemini 3,标志着其在AI领域方法论的深刻转变,旨在重获行业领导地位[1] - Anthropic在六天后发布Claude Opus 4.5,该模型在公司内部工程评估中表现超越所有人类候选人[3] - 两家公司均通过系统重新设计以提升效率,从而降低了最新模型的运行成本[4] 定价策略与行业经济演变 - Anthropic将Claude Opus 4.5的文本处理成本从每百万token 15美元大幅降低至5美元,降幅达67%[4] - 谷歌为Gemini 3 Pro设定了读取每百万token 2美元和生成每百万token 12美元的定价结构[4] - 此定价策略被描述为前沿模型中最激进的成本定位策略之一,反映了高端AI经济性的快速变化,使得曾经需要昂贵算力的任务如今可在日常规模运行[5] 模型核心能力与技术差异 - Gemini 3专注于多模态智能,能在单一工作流中处理文本、图表、图像、视频和代码,并在测试博士级科学推理的GPQA Diamond基准上获得90%以上的分数[6] - Claude Opus 4.5强化了编码能力、长视野推理和多步骤工作流执行,在SWE-bench Verified基准上得分超过80%,在真实工程任务中表现优于Gemini 3 Pro[7] - Gemini模型擅长跨格式任务及视觉或空间推理,而Opus模型则在结构化逻辑、准确性和多步骤执行方面表现更佳[7][10] 产品集成与应用场景 - Anthropic为Opus 4.5推出了新的产品集成,包括为Excel提供支持的Claude for Excel,可实现数据透视表分析、图表生成和多表格工作流,并推出了可在浏览器标签页间操作信息的Chrome扩展[8] - 谷歌将Gemini 3整合到其更广泛的技术栈中,为搜索中的AI模式、Gemini应用和Vertex AI提供支持,并作为其新的代理驱动开发平台Antigravity的核心[9] - Gemini 3在前端编码方面的优势使其位居WebDev Arena排行榜首位,强化了其在界面驱动任务中的能力范围[9] 生产级执行与复杂任务处理 - 两款模型的发布均指向行业向处理多步骤工作的模型转变,而不仅仅是生成单一响应[11] - Claude Opus 4.5在一次客户服务测试中以意外但有效的方式解决问题,展示了其无需逐步指导即可解读问题并交付解决方案的能力[11] - 谷歌在一个要求模型运营虚拟自动售货机一整年的商业模拟基准中评估Gemini 3,该模型在定价、库存和需求变化方面做出决策,最终获得的净资产是竞争模型的两倍以上[12]