魔都美术馆迎来首个官方AI讲解员
第一财经·2026-01-21 20:44

豆包AI导览合作案例 - 字节跳动旗下豆包与上海浦东美术馆达成合作,成为两项国际大展的官方AI讲解员,通过独家数据合作和定向搜索优化提升识别与讲解准确性[3] - 在实际观展中,用户可让豆包从艺术风格、历史背景、创作技法与文化意义等多个维度解读作品,旨在通过共情式提问和启发式对话,调动用户已有感受,形成更有参与感的理解过程[5] - 博物馆场景运用AI讲解的最大挑战是保证内容准确性,模型需能区分外观高度相似的文物、理解小众展品,并在观众移动观展时保持稳定识别,相关视频讲解功能主要基于Seed1.8模型的视频理解能力[5] 多模态大模型技术发展 - 多模态大模型的“感知-推理-动作”能力在真实世界场景的闭环验证与数据反哺,是AI能力的场景化落地与技术迭代的关键驱动[3] - 字节跳动于2025年12月发布通用Agent模型Seed1.8,核心定位是打通“感知-推理-动作”全链路,可直接执行复杂任务,聚焦真实世界多模态交互与任务执行[6] - 多模态代表着模型应用进入更深领域,因许多输入内容带有视觉因素,且处理任务需调用工具,工具返回结果也常是视觉化的,因此需要视觉化理解能力[6] - 行业普遍认为多模态是步入AGI的必经之路,智谱创始人唐杰表示2025年是“适应年”,而多模态感统将成为2026年的热点和重点,是完成人机GUI交互与AI进入物理世界的关键[7] 世界模型的技术趋势与行业动态 - 多模态是世界模型的核心技术基座与信息输入输出载体,世界模型则是多模态能力的高阶进化形态[8] - 2026年1月以来,行业内关于多模态与世界模型的动态增多,例如中科院自动化研究所与CreateAI提出NeoVerse,爱诗科技发布支持1080P分辨率的通用实时世界模型PixVerse R1[8] - 字节跳动暂未对外明确发布独立世界模型研发路线,但正尝试将世界理解能力融入通用大模型与多模态生态,通过感知、推理、动作的能力叠加,逐步构建“世界建模-交互-执行”的闭环[8] - 智源研究院院长王仲远表示,大语言模型技术路线已相对收敛,但多模态与世界模型暂未统一,未来可能组成“多模态世界大模型”这一统称[9] AI向理解物理世界规律演进 - 行业对世界模型讨论增多的原因,在创新奇智CTO张发恩看来,是明确了物理AI的大方向,其主战场具身智能快速发展,但多模态数据采集成本高、周期长,因此希望先做世界模型来自动产出多模态数据,用于训练VLA模型[10] - 世界模型的核心是要理解物理世界规律,如重力、摩擦力、易碎材料等,Google DeepMind CEO德米斯·哈萨比斯曾表示世界模型是打开AGI之门的钥匙,旨在让AI理解物理世界的底层规律、因果关系并进行长期规划[10] - 当前人工智能正从功能模仿转向理解物理世界规律,这一根本转变意味着AI发展路径日益清晰,即真正融入实体世界,解决系统性挑战[10] - 世界模型对“预测世界下一状态”的核心诉求,正倒逼多模态技术从早期的跨模态识别、生成,向更复杂的时空一致性整合、因果逻辑对齐演进[11] 多模态模型的技术现状与挑战 - 多模态模型理解与生成逐渐实现一体化是2026年的一个明显趋势,例如谷歌的Gemini 3展示了强大的图片编辑能力[11] - 多模态与世界模型均面临技术成熟度不够、成本高昂、商业化应用率较低等问题,限制多模态发展的主要原因在于技术路线没有收敛,许多模型仍分为多模态理解与多模态生成,且模型记忆问题未得到很好解决[11]

魔都美术馆迎来首个官方AI讲解员 - Reportify