豆包AI导览合作案例 - 字节跳动旗下豆包与上海浦东美术馆达成合作,成为两项国际大展的官方AI讲解员,通过独家数据合作和定向搜索优化提升讲解准确性 [1] - 在实际观展中,用户可让豆包从艺术风格、历史背景、创作技法与文化意义等多个维度对作品进行解读,并通过共情式提问和启发式对话增强用户参与感 [3] - 豆包相关视频讲解功能主要基于Seed1.8模型的视频理解能力,在博物馆场景中应用的最大挑战是保证内容准确性,需能区分外观高度相似的文物、理解小众展品,并在观众移动时保持稳定识别 [3] 多模态技术发展现状与趋势 - 多模态代表着模型应用进入更深领域,因许多输入内容(如车内、质检、餐饮场景)和工具返回结果带有视觉因素,模型需具备视觉化理解能力 [5] - 行业普遍认为多模态是步入AGI的必经之路,2025年是“适应年”,而多模态感统将成为2026年的热点和重点,是完成人机GUI交互与AI进入物理世界的关键 [6] - 多模态领域一个明显趋势是模型理解与生成逐渐实现一体化,例如谷歌的Gemini3展示了强大的图片编辑能力 [11] 世界模型的技术定位与行业动态 - 世界模型是多模态能力的高阶进化形态,其核心是要理解物理世界规律(如重力、摩擦力),旨在让AI理解物理世界的底层规律、因果关系,并进行长期规划和模拟推演 [10] - 当前人工智能正从功能模仿转向理解物理世界规律,发展路径日益清晰,即真正融入实体世界,解决系统性挑战 [10] - 今年以来行业内关于多模态与世界模型的动态增多,例如1月5日中科院与CreateAI提出NeoVerse,1月13日爱诗科技发布支持1080P分辨率的通用实时世界模型PixVerse R1 [8] 字节跳动的技术布局与战略 - Seed1.8是字节跳动于2025年12月发布的通用Agent模型,核心定位是打通“感知-推理-动作”全链路,可直接执行复杂任务,聚焦真实世界多模态交互与任务执行 [4] - 公司暂未对外明确发布独立世界模型研发路线,但正尝试将世界理解能力融入通用大模型(Seed系列)与多模态生态,通过感知、推理、动作的能力叠加,逐步构建“世界建模-交互-执行”的闭环 [8] - 公司Seed多模态交互与世界模型团队致力于研发具备人类水平的多模态理解与交互能力的模型,并推动多模态助手类产品的探索和研发 [8]
魔都美术馆迎来首个官方AI讲解员
第一财经资讯·2026-01-20 21:17