多模态智能 - 财报，业绩电话会，研报，新闻

多模态智能

搜索文档

机器之心· 2025-10-28 12:31

文章核心观点 - 颠覆性创新通过使产品更简单、更便宜、更易用，让更多人参与，此观点在AI浪潮中依然适用 [2] - 淘宝将AI深度融入电商场景的每个环节，致力于解决具体用户问题，AI已成为其算法基因 [3] - 技术创新与商业变革双向驱动，形成“技术创造价值—价值反哺技术”的双螺旋演进模式 [12] - 多模态智能是AI时代的关键技术域，能实现跨模态推理，是支撑“所想即所得”终极消费体验的基石 [11][34] - 公司判断，若模型能力保持当前进化速度，狭义AGI很可能在5-10年内到来 [40] AI时代的技术演进与商业驱动 - 当前AI技术迭代迅猛，每年都呈现跳跃式发展，从ChatGPT到Sora 2，技术突破速度震撼 [7] - 回顾互联网发展史，技术升级与产品迭代始终围绕技术发展与商业变革双向驱动的螺旋轨迹演进 [7] - PC互联网时代关键词为“数字基石”，无线互联网时代关键词为“时空折叠”，AI时代关键词为“智能增强”，实现人类与技术的“共生” [10] - 与前两次技术革命不同，AI时代生成式AI带来生产力的代际提升，多模态智能成为核心技术域 [11] 淘宝的AIGX技术体系与多模态布局 - 公司于2024年3月全面升级AIGX技术体系，具备完整的技术链条，覆盖电商经营全部场景 [3] - 从2023年起大力布局AI，自研多模态、搜推广、视频生成等大模型家族，通用能力达国内第一梯队水平 [11] - AIGX技术体系覆盖AIGI（索引）、AIGR（推荐）、AIGB（出价）、AIGA（拍卖）、AIGC（创意）、AIGD（数据）等场景 [3] - 多模态智能是公司最重要的AI技术域，已在AIGX技术体系中深度应用 [13] 生成式推荐系统RecGPT的应用与成效 - 公司于2024年7月发布百亿参数推荐大模型RecGPT，实现生成式推荐技术升级，并接入手机淘宝“猜你喜欢” [14] - RecGPT基于多模态大模型，能结合世界知识生成新内容或个性化推荐序列，突破传统推荐系统的数据局限 [14][16] - 模型能理解用户长达十年的行为信息，全模态认知数以亿计商品，进行推理推荐潜在需求商品 [17] - 搭载RecGPT的推荐信息流实现用户点击量增长超过16%，用户加购次数和停留时长提升5%以上 [21] 多模态生成技术在电商场景的实践 - 自研视频生成模型“淘宝星辰”能基于单张商品平铺图，全自动生成虚拟模特展示图、视频片段及完整带货视频 [23] - 升级版“淘宝星辰・视频生成模型3.0”采用更紧凑的时空压缩VAE，提升语义理解，动作更灵动，画面更原生 [25] - 全模态大模型“TStars-Omni”支持文本、图像、视频、音频等多模态输入输出，能进行深度推理 [27] - 基于TStars-Omni的商品理解功能，可分析用户提问并给出建议，如判断冰箱是否能放入特定厨房 [28] 技术开放与生态建设 - 公司于2024年6月开源强化学习训练框架ROLL，专为高效、可扩展、易用设计，支持高达600B+参数模型的训练 [38][39] - 于2024年10月初开源生成式预估训练框架RecIS，为推荐模型与多模态大模型训练提供统一架构解决方案 [39] - 通过开源内部验证后的技术能力，旨在形成生态扩张动能，促进行业迈向超级智能时代 [39] - AI Agent产品iFlow CLI采用“一个内核，多种应用方式”设计，面向个人用户永久免费开放 [28][30]