Workflow
多模态智能
icon
搜索文档
AI不再「炫技」,淘宝要让技术解决用户每一个具体问题
机器之心· 2025-10-28 12:31
文章核心观点 - 颠覆性创新通过使产品更简单、更便宜、更易用,让更多人参与,此观点在AI浪潮中依然适用 [2] - 淘宝将AI深度融入电商场景的每个环节,致力于解决具体用户问题,AI已成为其算法基因 [3] - 技术创新与商业变革双向驱动,形成“技术创造价值—价值反哺技术”的双螺旋演进模式 [12] - 多模态智能是AI时代的关键技术域,能实现跨模态推理,是支撑“所想即所得”终极消费体验的基石 [11][34] - 公司判断,若模型能力保持当前进化速度,狭义AGI很可能在5-10年内到来 [40] AI时代的技术演进与商业驱动 - 当前AI技术迭代迅猛,每年都呈现跳跃式发展,从ChatGPT到Sora 2,技术突破速度震撼 [7] - 回顾互联网发展史,技术升级与产品迭代始终围绕技术发展与商业变革双向驱动的螺旋轨迹演进 [7] - PC互联网时代关键词为“数字基石”,无线互联网时代关键词为“时空折叠”,AI时代关键词为“智能增强”,实现人类与技术的“共生” [10] - 与前两次技术革命不同,AI时代生成式AI带来生产力的代际提升,多模态智能成为核心技术域 [11] 淘宝的AIGX技术体系与多模态布局 - 公司于2024年3月全面升级AIGX技术体系,具备完整的技术链条,覆盖电商经营全部场景 [3] - 从2023年起大力布局AI,自研多模态、搜推广、视频生成等大模型家族,通用能力达国内第一梯队水平 [11] - AIGX技术体系覆盖AIGI(索引)、AIGR(推荐)、AIGB(出价)、AIGA(拍卖)、AIGC(创意)、AIGD(数据)等场景 [3] - 多模态智能是公司最重要的AI技术域,已在AIGX技术体系中深度应用 [13] 生成式推荐系统RecGPT的应用与成效 - 公司于2024年7月发布百亿参数推荐大模型RecGPT,实现生成式推荐技术升级,并接入手机淘宝“猜你喜欢” [14] - RecGPT基于多模态大模型,能结合世界知识生成新内容或个性化推荐序列,突破传统推荐系统的数据局限 [14][16] - 模型能理解用户长达十年的行为信息,全模态认知数以亿计商品,进行推理推荐潜在需求商品 [17] - 搭载RecGPT的推荐信息流实现用户点击量增长超过16%,用户加购次数和停留时长提升5%以上 [21] 多模态生成技术在电商场景的实践 - 自研视频生成模型“淘宝星辰”能基于单张商品平铺图,全自动生成虚拟模特展示图、视频片段及完整带货视频 [23] - 升级版“淘宝星辰・视频生成模型3.0”采用更紧凑的时空压缩VAE,提升语义理解,动作更灵动,画面更原生 [25] - 全模态大模型“TStars-Omni”支持文本、图像、视频、音频等多模态输入输出,能进行深度推理 [27] - 基于TStars-Omni的商品理解功能,可分析用户提问并给出建议,如判断冰箱是否能放入特定厨房 [28] 技术开放与生态建设 - 公司于2024年6月开源强化学习训练框架ROLL,专为高效、可扩展、易用设计,支持高达600B+参数模型的训练 [38][39] - 于2024年10月初开源生成式预估训练框架RecIS,为推荐模型与多模态大模型训练提供统一架构解决方案 [39] - 通过开源内部验证后的技术能力,旨在形成生态扩张动能,促进行业迈向超级智能时代 [39] - AI Agent产品iFlow CLI采用“一个内核,多种应用方式”设计,面向个人用户永久免费开放 [28][30]
开源仅一周,鹅厂文生图大模型强势登顶,击败谷歌Nano-Banana
机器之心· 2025-10-05 14:42
行业竞争格局 - 腾讯混元图像3.0以1167分登顶LMArena文生图完整榜单第一,超越谷歌Gemini-2.5-flash-image-preview(1151分)、字节跳动Seedream-4-2k(1144分)和OpenAI GPT-Image-1(1126分)等竞争对手 [1][2] - 图像生成领域呈现多模态融合与智能深化趋势,从“能生成”向“能理解、能推理、能控制”演进 [55] - 开源成为核心推动力,国内AI公司通过开放模型权重借助社区协作实现快速迭代 [56] 公司技术实力 - 混元图像3.0参数量达800亿,推理时每个token激活130亿参数,是公司规模最大、性能最强的开源文生图模型 [3] - 模型采用混合式离散-连续建模策略,在统一框架内融合语言建模、图像理解和图像生成三大功能 [42][43] - 基于超百亿规模原始图像库筛选构建近50亿张高质量训练数据集,数据纯净度不足45% [45] - 通过四阶段渐进式预训练和包括SFT、DPO、MixGRPO、SRPO及ReDA在内的后训练策略优化模型表现 [49][53] 产品性能表现 - 模型具备原生多模态架构和世界知识推理能力,能理解复杂提示并生成连贯故事场景,如“曹冲称象”九宫格漫画 [9] - 在精确文字生成和长文本渲染方面表现突出,有效改善文字乱码和字形扭曲问题 [16] - 支持多分辨率图像生成,在文图一致性与视觉质量方面超越Seedream 4.0、Nano Banana、GPT-Image等顶尖模型 [51][54] - 发布一周内GitHub星数突破1.7k,社区热度持续攀升 [6] 公司战略布局 - 公司围绕混元模型家族形成全栈式AIGC体系,涵盖图像领域的混元图像3.0、3D领域的混元3D 3.0、视频领域的HunyuanVideo以及世界模型HunyunWorld-1.0 [56] - 积极布局开源生态,混元翻译模型Hunyuan-MT-7B和世界模型HunyuanWorld-Voyager曾在Hugging Face趋势榜前三占据两席 [56] - 广泛的业务矩阵(社交、内容生产、广告推荐、游戏)为技术落地提供丰富场景和数据支撑 [58]
商汤林达华:破解图文交错思维链技术,商汤的“两步走”路径
36氪· 2025-08-15 17:09
多模态智能技术路径 - 多模态是通向AGI的必经之路 因语言仅是智能的产物而非本源 需通过多模态感知和处理信息实现通用性[4] - 智能演进需经历四次破壁:长序列建模、多模态理解、多模态推理、数字与物理空间交互[5] - 公司2023年初推出国内最早多模态模型 2024年突破原生多模态融合技术 2025年实现图文交错思维链[5] 原生多模态技术优势 - 适应训练通过微调实现模态对齐 成本低但仅僵硬遵循范例模式[7] - 原生训练在预训练阶段融合多模态数据 从根源具备多模态能力[7] - 公司2024年确定融合路径:预训练中段开始多模态融合 形成统一模型且不再生产单独语言模型[7] 技术成果与性能表现 - 2024年Q3完成融合训练数据配方验证 Q4完成千亿参数级别多模态模型训练[8] - 模型在OpenCompass和SuperCLUE评测中位居国内首位 语言任务与DeepSeek V3并列[8] - 日日新6.5仅有多模态模型 无单独语言模型 与国内其他厂商架构存在显著差异[9] 图文交错思维链突破 - 主流多模态模型推理链仍为纯文本 通过图像转文本描述再进行语言推理[9] - 公司通过图像编辑工具构建图文交错思维链 实现逻辑思维与形象思维结合[10] - 采用两步走路径:先通过工具构建对外智能体 再通过多模态理解实现内生混合思考[10] 模型架构效率优化 - 视觉编码器专注连续信号感知 语言模型主干处理离散语义 需差异化结构与学习方式[11] - 架构更新后处理高分辨率大图和长视频更快捷 数据优化使同性能下效率提升超3倍[11] - 性能成本曲线显著优化 实现比Gemini 2.5系列更优的效费比[11] 具身智能与世界模型 - 世界模型通过虚拟系统模拟现实交互 提供近真实反馈且效率远高于真实环境[12] - 开悟世界模型基于多模态能力构建 用智能汽车业务数据增强模拟生成能力[12] - 可根据指定路径生成多视角视频 有效支撑智能驾驶系统训练[12] 商业战略与落地成果 - 采用"基础设施-模型-应用"三位一体战略 形成技术与商业正向循环[13] - 基础技术实现原生融合训练/多模态强化学习/无限时长视频交互记忆等突破[14] - 生产力AI装机量从百万级走向千万级 交互AI落地新型硬件与机器人[14]
商汤林达华万字长文回答AGI:4层破壁,3大挑战
量子位· 2025-08-12 17:35
核心观点 - 多模态智能是当前AI发展的关键趋势,商汤科技通过"原生多模态"技术路线和"四次破壁"演进框架,推动通用人工智能(AGI)的发展 [1][2][4][6] - 商汤科技发布的日日新6.5模型实现了"图文交错思维"突破,标志着多模态推理能力的显著提升 [16][21] - 公司通过统一融合模型架构、优化数据生产体系和创新组织模式,在多模态领域保持领先优势 [12][25][40][41] 多模态智能的重要性 - 智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的,仅依赖文本数据的语言模型无法构建真正的AGI [7][8] - 多模态模型必须能够处理和理解图像、声音、视频等多种模态的信息,才能具备通用性 [8] - 商汤将多模态锚定为技术主轴,从日日新6.0开始只发布多模态模型,这在国内大模型厂商中独树一帜 [12] 技术路径选择 - 实现多模态模型主要有两种技术路径:适应训练(嫁接模式)和原生训练(融合模式) [11] - 商汤通过大规模对比实验确立了"原生多模态"技术路线,采用从预训练阶段就混合多种模态数据的融合模式 [10][11] - 实验证明,在合适的数据配比下,一个原生多模态融合模型在纯文本和图文任务上的表现都优于各自独立的专门模型 [23] 四次破壁演进框架 - 第一次破壁:Transformer实现长序列建模,为大语言模型奠定基础 [14] - 第二次破壁:语言与视觉会合形成多模态理解,模型学会跨模态关联 [15] - 第三次破壁:突破逻辑与形象思维边界,实现多模态推理,日日新6.5引入"图文交错思维链" [16] - 第四次破壁:突破与物理空间边界,实现与真实世界交互,即具身智能 [22][24] 数据体系构建 - 多模态训练最关键的数据是强关联的"图文对",商汤通过大规模自动化构造解决了稀缺问题 [26][27] - 建立"续训验证"机制确保数据质量,只有能带来性能增益的数据才会被准入 [28][29] - 采用"人写种子+自动扩展+强化学习"三段式方法获取高阶专业数据 [31][32][33][34] 模型架构优化 - 模型架构设计的核心是效率,而非单纯追求更大参数规模 [36] - 日日新6.5推动视觉编码器轻量化(参数量从60亿减至10亿),同时使MLLM主干网络更深更窄 [38] - 架构调整结合数据优化使模型效率提升超过3倍,实现比肩顶级模型的效费比 [38][39] 创新力源泉 - 计算机视觉起家的技术基因使公司对多模态价值有更早更深刻的理解 [40] - 重构研究组织实现资源统一调度,设立专项创新小组探索高风险高回报方向 [41] - 构建"基础设施-模型-应用"三位一体的正向循环,使技术理想与商业价值相互促进 [42][43]
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
量子位· 2025-07-30 14:06
豆包APP视觉推理功能升级 - 核心功能升级为视觉推理,支持图片深度思考,通过开启深度思考模式可拍照或上传图片进行分析[4][5] - 分析过程结合以图搜图、图片分析工具(放大/裁剪/旋转)等多步骤,例如识别上海东方明珠年份为1999年左右[1][7][8] - 支持AI识别AI生成图片,通过放大细节识别右图西红柿蒂部不自然卷曲判定为AI生成[10][11][13] 实测场景表现 - 复杂图像处理:在熊猫群像中精准定位足球,采用"初步识别→放大区域→空间定位"三步骤[17][22][25] - 小众知识检索:识别鄂温克族口弦琴、云南翅果藤等冷门内容,结合图片检索+文字检索双重验证[29][34][35] - 学术与工作辅助:解答IMO数学题(经ChatGPT验证答案正确),一键提取财报数据并保持准确性[40][43][46][49] 技术模式创新 - 采用"边想边搜"动态推理机制,区别于传统AI"先搜后想",支持多轮搜索与工具调用[50][52][53] - 实现图搜文能力,例如通过技术截图反向定位OpenAI论文原文及图表出处[62][64][65] - 多模态融合:Transformer架构统一处理文字/图像/音频,支撑工业检测、医疗分析等场景需求[72][75] 行业趋势 - 视觉推理成为大模型技术新门槛,OpenAI的o3/o4-mini推动多模态深度理解范式[68][69][70] - 技术成熟度与行业需求(工业/医疗)形成共振,促进行业竞速发展[71][74][76] - 豆包APP将高阶视觉推理功能免费开放,降低用户使用门槛[76][77]
商汤发布「日日新V6.5」大模型,多模态能力大幅提升,让AI从“生产力工具”进阶“生产力”
财经网· 2025-07-30 13:40
多模态AI技术突破 - 多模态信息感知与处理是AGI核心要求及从语言模型迈向AGI的必由之路[1] - 多模态智能演进将驱动AI下一阶段发展 涵盖感知 推理及交互[1] - 商汤科技发布日日新SenseNova V6 5大模型体系 实现多模态基座大模型突破性升级[1] 日日新V6 5技术升级 - 实现三大突破性升级:强推理能力比肩Gemini 2 5 Pro和Claude 4-sonnet 性价比提升3倍以上 智能体支持端到端场景落地[3] - 多模态推理与交互性能大幅提升 超越Gemini 2 5 Flash和GPT-4o 成为国内首个实现图文交错思维的商业级大模型[4] - 采用改进的多模态融合架构 视觉编码器显著变轻 视觉表征在早期与语言对齐 预训练吞吐量提升20%以上 强化学习效率提升40% 推理吞吐量提升35%以上[5] 商汤小浣熊智能体升级 - 基于日日新V6 5多模态数据分析能力全面升级 可处理多模态复杂输入并实现专业可视化输出[6] - 在客户场景测试中达到Claude 4 Opus水平 大幅领先OpenAI o3 时序计算 数据匹配 数理计算和异常检测准确率接近100%[6] - 能够解析含合并单元格 缺失值 子表格及内嵌图表的复杂Excel表格 并生成完整分析报告[10] 实际应用场景 - 支持从截图提取表格信息并导出可编辑Excel表格 实现多模态全流程处理[10] - 教育版覆盖500+院校 10余种教育场景 25万+师生 帮助学生提升学习效率15-30% 降低学业焦虑发生率40% 课堂参与度提高2 1倍 资源错配率降低30% 心理健康干预及时性提升50%[13] - 金融版提供知识助手 智能问数及多模态智能理赔解决方案 构建人机协同智能决策新范式[14] - 产品矩阵累计服务用户数量超1000万[15] 行业意义 - AI凭借多模态融合能力突破逐步触达AGI边界 向类人标准靠近[1] - 实现从生产力工具到生产力的跨越 推动AI完成从工具到人的跃迁[3][6]
750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集
量子位· 2025-07-05 12:03
世界模型数据集Sekai - 上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构联合推出持续迭代的高质量视频数据集项目Sekai,旨在构建动态且真实的世界供交互探索 [2] - 数据集汇聚来自全球101个国家和地区、750多座城市的超过5000小时第一人称行走与无人机视角视频,配有精细化的多维度标签 [2] - 包含两个互补子集:面向真实世界的Sekai-Real(YouTube视频)和面向虚拟场景的Sekai-Game(游戏视频) [3] 数据集特点 - Sekai-Real从8623小时YouTube视频中筛选出6620小时,确保分辨率不低于1080P、帧率高于30FPS,并保留原生立体声 [3][5][6] - 通过多维度采样模块提取300小时高质量子集Sekai-Real-HQ,综合考虑画质、内容多样性、地点、天气等因素 [3][9] - Sekai-Game来源于虚幻引擎5游戏《Lushfoil Photography Sim》,录制60小时实况视频并获取精确标注信息,最终处理得到36小时数据 [3][5][9] 数据处理流程 - 预处理阶段包括镜头边界检测、剪辑提取与转码(统一为H.265 MP4格式,720p分辨率,30fps帧率),以及视频过滤去除低质量片段 [8] - 标注阶段利用GPT-4o解析位置信息,Qwen 2.5-VL生成平均176字的时序描述,改进的MegaSaM提取相机轨迹 [8] - 采样阶段开发综合质量与多样性的策略,优化训练数据成本 [9] 应用与成果 - 基于Sekai数据训练交互式视频世界探索模型Yume,支持通过键鼠操作控制生成视频 [2] - 最终数据具备精准的三级位置信息、四大内容分类维度、详细视频描述及相机轨迹标注 [10] - 目标推动世界建模与多模态智能发展,应用于视频生成、自主导航等领域 [10]
不走寻常路的淘天技术节:AI狼人杀、Poster路演、博见社轮番上阵
量子位· 2025-07-01 11:51
技术节概况 - 淘天集团举办第四届硬核少年技术节 主题为AI技术展示与交流 活动在北京和杭州两地同步进行 [1][3] - 技术节突出实用主义技术美学 展示近40项AIGX技术体系成果 涵盖电商全场景应用 [8][10][31] - 活动形式分为AI展示场 交流场 开放场 比赛场 强调技术落地与产业结合 [3][4] AIGX技术体系进展 - 开源强化学习训练框架ROLL 支持十亿至千亿参数大模型训练 提升大语言模型在人类偏好对齐等场景的性能 [14][15] - 自研百亿参数推荐大模型RecGPT接入手机淘宝首屏 实现用户点击量两位数增长 加购次数提升5% [34][39] - 阿里妈妈万相营造技术实现云上商业化 打通B端客户商业化链路 [42][43] 特色活动设计 - AI展示场采用Poster路演形式 直观呈现AIGX技术在索引 推荐 创意等领域的应用 [7][11] - AI交流场博见社设置京杭双城分会场 聚焦多模态智能与AI Agent 邀请学界和工业界专家分享 [16][18][59] - AI比赛场创新设置AI狼人杀 测试AI Agent在语言理解与策略演化方面的能力 [25][26][27] 技术文化特质 - 技术节体现淘天集团朝气与匠心的文化特质 年轻技术人主导项目展示 强调系统能力持续打磨 [51][54][55] - AIGX技术体系覆盖电商全链路 从基础研究到产业化形成完整闭环 [31][32][44] - 推荐系统升级为发现式消费场 通过用户行为分析实现预判式推荐 [37][41]
一天 15k 星,代码生成碾压 Claude,连 Cursor 都慌了?谷歌 Gemini CLI 杀疯了
AI前线· 2025-06-26 13:44
谷歌Gemini CLI发布 - 谷歌正式发布终端环境下的AI助手Gemini CLI,支持每分钟60次、每天1,000次免费模型调用 [1] - 该工具是继Claude Code和OpenAI Codex CLI之后,第三家推出的终端智能体工具,标志着终端工具从小众走向主流 [3] - 开发者每月在Claude Code上的花费高达数百至数千美元,显示终端工具市场潜力巨大 [3] 产品特性与优势 - 提供业界最宽松的免费调用配额:每分钟60次、每天1,000次请求,全部免费 [4] - 接入Gemini 2.5 Pro模型,具备百万token上下文窗口和Agentic AI能力 [4][15] - 支持代码编写、问题调试、项目管理、文档查询及代码解释等多项功能 [9] - 开源项目,采用Apache 2.0许可,发布不到一天即获得15.1k星标 [8] - 支持多平台运行(Mac/Linux/Windows),Windows上为原生实现无需WSL [10] 技术架构与设计理念 - 采用通用模型Gemini 2.5 Pro而非专用代码模型,强调多能力协同发展 [15][17] - 产品负责人认为现实开发任务需要模型具备代码外的上下文理解能力 [17] - 研究团队探索双路线:扩展上下文窗口与发展agentic编程模型 [23] - 系统提示词精确定义工具行为,强调注释应解释"为什么"而非"做了什么" [13] 市场反馈与竞争态势 - 社区关注焦点集中在超大免费配额上,认为这将给Anthropic带来巨大压力 [6] - 开发者反馈Gemini 2.5 Pro在50万行代码规模项目中表现优于Claude Code [18] - 在Trae平台上编程完成率大幅超过Claude 3.7,修复bug速度也更快 [20] - 有案例显示Gemini解决3D渲染问题仅需5分钟,而Claude Code耗时2小时未果 [21] 技术演进方向 - 数据层面注重代码仓库上下文理解,目标从简单补全转向复杂修改 [21] - 方法论层面利用内部工程师资源提升模型匹配专业开发者需求的能力 [22] - 研究团队模拟人类开发者工作方式,同时探索突破人类经验限制的新解法 [24]
张亚勤:后ChatGPT时代,中国人工智能产业的机遇、5大发展方向与3个预测
36氪· 2025-05-16 12:27
ChatGPT的技术突破与行业影响 - ChatGPT成为历史上最快突破1亿用户的科技应用,两个月内实现这一里程碑 [3] - ChatGPT基于GPT-3.5优化,语言能力显著超越GPT-3,首次通过图灵测试 [1][4] - 生成式AI领域出现技术质变,ChatGPT标志着AI从垂直工具向通用智能体的跃升 [4][6] 大模型驱动的IT行业结构重塑 - 新IT架构分为四层:算力基石层、IaaS层、基础模型层(MaaS)、垂直模型层(VFM)+SaaS层 [9] - 垂直基础模型层和SaaS层是创新风口,边缘计算领域存在大量机会 [11] - 企业可通过精调训练(Fine Tuning)和提示工程(Prompt Engineering)降低开发成本 [12] 中国AI产业的发展机遇 - 中文大模型需多语种训练数据,非中文数据不会成为瓶颈 [15][16] - 国内技术差距集中在高端芯片、算法系统和平台级技术,但追赶潜力大 [17] - 垂直领域(如医疗、边缘智能)是主要机会点,"百模大战"加速市场活力 [18][19] AI大模型的五大发展方向 - 多模态智能:整合文字、图像、视频、生物信息等跨模态数据 [32] - 边缘智能:部署轻量化模型到终端设备,实现低延时处理 [33] - 物理智能与生物智能:推动自动驾驶、机器人及医疗领域突破 [33] 生成式AI的未来技术路线 - 基础大模型+垂直模型+边缘模型构成技术底座,生态规模将超移动互联网10倍 [34] - 统一标识(Tokenisation)和规模定律(Scaling Law)是核心要素 [34] - 5年内可能在Transformer等主流框架外出现颠覆性新技术 [34][35]