Workflow
多模态大模型
icon
搜索文档
百度X-Driver:可闭环评测的VLA
自动驾驶之心· 2025-12-28 11:30
文章核心观点 - 哈工大与百度联合提出的X-Driver是一个专为闭环自动驾驶设计的统一多模态大语言模型框架,其核心创新在于利用思维链推理和自回归建模来增强感知与决策,旨在解决现有基于MLLM的自动驾驶方案在闭环评估中成功率低、存在幻觉和缺乏稳定轨迹输出的问题 [2][3] 方法架构 - 系统利用集成思维链推理机制的多模态大语言模型来执行场景理解、导航指令解释和交通规则理解 [6] - 输入为摄像头图像数据以及表示导航命令和提示的文本,输出为思维链推理过程和最终的驾驶决策 [6] - 系统以闭环方式运行,执行的动作影响环境并生成新的感知数据以进行持续优化 [7] 核心模型与技术细节 - 模型基于LLaVA架构,使用CLIP的ViT-L/14图像编码器提取图像特征,并通过映射网络将其对齐到文本嵌入空间,再输入微调后的LLaMa网络 [9] - 采用连续图像编码方法,避免使用VQ-VAE等离散编码方法导致的关键信息丢失,例如能更有效地保留远处红绿灯的信息 [13][14] - 通过监督微调整合高质量的思维链提示数据,将驾驶任务分解为对象检测、红绿灯状态、交通标志和车道信息等子任务,鼓励模型进行结构化逻辑思维 [11][12][17] 训练与推理过程 - 监督微调训练涵盖对复杂3D驾驶环境的精确感知,包括动态物体的位置、速度、轨迹预测,以及实时障碍物识别和空间定位 [15] - 训练还包括对导航指令的深入理解和对交通法规的遵守,如识别各类交通信号灯状态、解读监管/警告/信息标志,以及准确的车道检测与决策 [15] - 推理时,模型对单帧图像和当前车速进行多模态融合分析,在思维链提示指导下,逐步推理对象位置、类别、关注必要性,并据此更新最终驾驶决策 [18][20][23] 闭环仿真实验与性能评估 - 在CARLA仿真环境中使用Bench2Drive数据集进行闭环测试,该数据集包含超过200万帧仿真数据,用于评估城市、高速公路及恶劣天气等不同条件下的性能 [8][27] - 评估关键指标为驾驶评分和成功率,驾驶评分综合考虑路线遵守、速度控制和交通规则合规性,成功率衡量无碰撞或重大违规完成任务的百分比 [28] - 定量结果显示,在Bench2Drive数据集上,使用500K和2.2M样本与UniAD对比,整合思维链推理的X-Driver版本在驾驶评分和成功率上均有提升 [29] - 具体数据表明,在bench2drive220任务中,UniAD的成功率为17.5%,而X-Driver无思维链版本为15.2%,整合思维链的版本提升至18.1% [30] - 在bench2drive50任务中,UniAD成功率为22.0%,X-Driver无思维链版本为19.8%,整合思维链的版本提升至24.0% [30] 现状总结与行业洞察 - 当前在闭环仿真器上的自动驾驶成功率仍处于较低水平,约为20%左右 [30][31] - 使用仿真数据测试与现实世界存在差距,不能完全反映实际性能 [31] - 目前行业倾向将多模态大语言模型结合思维链推理生成的驾驶决策,作为慢系统中规划轨迹的初始解,用以加速下游的规划搜索过程,而非直接用于控车 [31]
首个多轮、开放视角视频问答基准,系统分类9大幻觉任务
36氪· 2025-12-26 15:16
基准概述与核心贡献 - 国防科技大学与中山大学的研究团队提出了名为WildVideo的评测基准,旨在系统性地评估多模态大模型在真实世界视频-语言交互中的能力,该工作已被TPAMI 2025正式接收 [2][3] - 该基准首次从感知、认知与上下文理解三个层面系统定义了9类幻觉任务,并构建了一个涵盖双重视角、支持中英双语的大规模高质量视频对话数据集 [3] - 基准设计摒弃传统单选/判断题形式,采用开放问答并引入多轮对话评测(最多5轮),以模拟真实、连续、交互式的对话场景,全面评估模型的连贯理解与信息关联能力 [4] 数据集构成 - 基准包含1,318段视频,其中874段来自Charades-EGO数据集(第一人称与第三人称配对),444段为涵盖全球事件与文化现象的YouTube视频 [6] - 数据集最终包含了13,704个单轮问答对与1,585个多轮对话,数据构建融合了强大LLM的生成能力与多国PhD级别专家的多次人工审核与增强 [6] 任务分类与数据分布 - 幻觉任务被细分为三大类九小项:感知幻觉(物体、动作、视觉定位、一致性)、认知幻觉(因果关系、跨模态指代、世界知识)、上下文理解幻觉(上下文省略、跨轮检索) [4] - 根据数据分布表,单轮任务中,物体识别任务有2,305个样本,动作识别有2,485个,世界知识任务最多,有4,851个样本;多轮任务中,上下文省略有303个样本,跨轮检索有93个样本 [8] 主要实验发现:整体表现与挑战 - 在WildVideo上对14个主流开源与商业模型(如GPT-4o、Claude-3.5-Sonnet、Gemini系列等)的评估显示,即便最先进的模型也面临严峻挑战 [10] - 在单轮任务中,表现最佳的GPT-4o准确率仅为62.1%;在多轮对话任务中,其准确率进一步下降至52.7%,表明处理多轮交互的复杂性远高于单轮问答 [10] 主要实验发现:能力结构不平衡 - 感知层面:模型在静态“物体”识别上表现最佳,而在需要理解时序的“动作”识别和“视觉定位”任务上表现大幅下滑 [12] - 认知层面:涉及常识推理和跨模态指代的任务成为所有模型的普遍难点,最低得分仅11.0% [12] - 上下文层面:多轮特有的“上下文理解”任务(省略与检索)表现最不理想,最佳得分也未超过51.4% [12] 主要实验发现:视角偏好与语言差异 - 几乎所有模型在第三人称(外视角)视频上的表现都系统性优于第一人称(自我视角)视频,因后者存在更多运动模糊、视角突变和遮挡 [14] - 模型在中文任务上的表现普遍低于英文,最佳模型GPT-4o在中文多轮任务中也仅得54.0% [16] 主要实验发现:模型对比与洞察 - 性能更强的模型版本(如GPT-4o vs GPT-4o mini)在绝大多数任务上领先,例如在单轮感知任务平均分上,GPT-4o比mini版高9.7个百分点 [17] - 轻量级的Gemini 1.5 Flash在多轮上下文理解任务中反超了其性能版(Gemini 1.5 Pro),平均分分别为47.0%和40.2%,提示模型设计在效率与长上下文处理能力间可能存在不同的优化路径 [16][17] 行业意义与未来方向 - WildVideo推动了视频理解评测从“静态快照问答”走向“动态连续对话”,从“客观选择”走向“开放生成”,更加贴近最终应用 [18] - 其细分的幻觉分类体系能够帮助研究者精准定位模型失效的具体环节(如感知、认知或上下文理解),从而进行有针对性的改进 [18] - 基准明确揭示了当前模型在多轮交互中的脆弱性,将激励产业界在对话状态管理、长期记忆机制、指代消解等关键技术上投入更多资源 [18] - 中英双语并行的设计,为开发更具全球适用性的多模态模型提供了重要的评估基础 [18]
字节AI1080天闪电逆袭:从后知后觉到AGI全面发力
21世纪经济报道· 2025-12-25 11:56
公司AI战略转型历程 - 公司用三年时间完成从初期落后到构建全栈AI能力的战略转型,截至2025年12月,其火山引擎已有超50万家企业接入AI相关能力 [1][2] - 2023年初GPT-4发布后,公司内部因在生成式AI竞赛中落后而感到焦虑,当时公司尚无统一大模型战略,多个业务线各自为战 [2][4] - 2023年3月GPT-4发布后,公司高层意识到差距,迅速成立“大模型专项”,明确以“快速追赶、聚焦应用”为核心目标 [5] 早期AI布局与挑战 - 公司AI技术积累可追溯至2016年成立的AI Lab,团队规模在2018年达到150人,覆盖多个前沿方向 [4] - 随着抖音、TikTok占据市场优势,AI Lab的定位在2020年从集团级前瞻项目转为技术中台,研究重心集中在优化推荐和提升广告转化,而非构建通用智能 [4] - 在大模型新范式面前,公司既无统一战略也无核心底座,资源分散,方向模糊,2020年年中AI Lab负责人马维英离开 [4] 组织架构重组 - 2024年初,公司启动彻底的AI体系重组,AI业务从“支持职能”升级为“一级战略”,核心调整是拆分出两大独立单元Seed与Flow,与主要业务线平级 [5] - Seed团队整合原AI Lab下属的NLP组、视频生成模型团队PixleDance、智能创作团队等分散力量,确立“多模态优先、高效训练、低成本部署”的技术路线 [7] - 为保障长期创新,公司对Seed团队取消季度考核,改为年度OKR评估,并允许团队投入20%的资源用于探索性研究 [7] 技术研发与团队建设 - 2025年2月,曾任Google DeepMind研究副总裁的吴永辉正式入职并接管Seed团队,成为团队转折点 [6][7] - 2025年公司持续迭代多模态大模型,采用“基础模型+任务模型”的模块化架构,2025年12月发布的豆包大模型1.8针对多模态Agent场景进行定向优化 [9] - 创始人张一鸣于2025年4月宣布亲自带队新加坡AI实验室,聚焦多模态大模型、AI智能体、自研AI芯片三大前沿方向 [9] 产品创新与商业化 - Flow部门采用“特种兵小组”模式,每个产品由3–5人组成独立单元,拥有高度自主权,聚焦AI产品快速落地与迭代 [8] - 依托公司全域流量,推出一系列爆款应用,包括豆包App、Coze平台、Seedance视频生成工具等,并通过流量网络形成协同效应 [8] - 截至2024年12月,豆包MAU达7523万,稳居国内AI原生应用首位,AI原生APP整体MAU突破1.2亿,同比增长232% [8] 生态建设与成本优化 - 火山引擎推出“AI节省计划”,通过阶梯式折扣帮助企业最高节省47%的成本,同时开放豆包大模型API、Seedance视频生成API等核心能力 [9] - 截至2025年12月,火山引擎披露已有超50万家企业接入公司AI相关能力 [2] 硬件与全球化布局 - 2025年下半年加快AI硬件布局,包括与歌尔股份合作开发的AR眼镜预计2026年量产,OlaFriend AI耳机第二代进入研发测试,豆包手机助手深度植入合作机型,PicoVR设备接入豆包多模态能力 [10] - 公司AI竞赛已进入深水区,海外OpenAI、Google DeepMind持续领跑,国内百度、阿里、华为等大厂也在加大投入,DeepSeek等创业公司快速崛起 [11]
理想MindGPT-4o-Vision技术报告压缩版
自动驾驶之心· 2025-12-25 11:24
文章核心观点 - 理想汽车发布MindGPT-4ov技术报告,提出一套旨在解决通用多模态大模型向垂直领域迁移时面临的核心矛盾(如灾难性遗忘、缺乏系统方法论)的全链路后训练工程方案 [1] 当前多模态模型训练的关键挑战 - **灾难性遗忘与缺乏方法论**:将通用多模态大模型迁移至垂直应用时,注入领域知识会导致原有通用能力退化,且现有方法缺乏涵盖数据、训练到部署的全链路方案 [1] - **资源分配粗放**:传统数据合成方法对所有数据均等处理,忽视信息密度差异,导致高价值数据挖掘不足,低价值数据浪费算力 [2] - **奖励机制单一化**:强化学习阶段传统的Pass@1机制使模型为最大化奖励而收敛到少数安全回复模式,牺牲输出多样性与探索性,削弱泛化能力 [2] - **单模态虚假相关**:模型幻觉常源于过度依赖语言模型先验而非视觉证据,例如在移除图片输入后仍能编造视觉细节,构成事实性错误风险 [2] MindGPT-4ov后训练范式的核心模块 - **数据构建**:基于信息密度评分进行数据合成与双维标签系统 [3] - **监督微调**:采用协同课程监督微调 [3] - **强化学习**:采用混合奖励的多阶段强化学习 [3] - **基础设施**:采用5D并行训练(在3D并行基础上引入序列并行和专家并行),并优化推理过程中的模型适配、流式推理和高并发场景 [3] 数据构建:信息密度评分与双维标签 - **信息密度评分**:利用MLLM对图像从主体多样性、场景空间关系、OCR文本丰富度、世界知识相关性四个维度进行量化评分 [3] - **动态合成策略**:依据IDS分数动态调整生成问答对的数量,高密度图像生成更多QA,低密度图像生成较少QA,以实现资源高效配置 [3] - **双维标签系统**:构建领域+能力的树状标签体系,确保合成数据既覆盖垂直领域知识,又兼顾通用视觉能力(如计数、推理) [4] 监督微调:三阶段协同课程学习 - **阶段一:跨域知识学习**:重点注入垂直领域知识,建立解决特定领域问题的基础 [5] - **阶段二:能力修复**:针对第一阶段可能导致的通用能力下降,使用通用数据集进行针对性恢复训练 [5] - **阶段三:偏好对齐**:使用高质量偏好数据,优化响应格式、减少幻觉,并处理长上下文逻辑 [5] 强化学习:混合奖励机制 - **Pass@k奖励**:在模型生成的k个回答中,只要有正确答案即计算期望奖励,鼓励探索不同推理路径,而非陷入单一模式 [6] - **多样性奖励**:计算候选回答间的语义距离,语义过于相似的正确回答会受到惩罚,语义差异大且正确的回答获得更高奖励 [6] - **长度奖励**:引入软性冗余约束,回答长度超过设定阈值(即使内容正确)会给予负向惩罚,强制输出简洁响应 [6] - **对抗性幻觉数据**:构造移除图像的文本样本,若模型在无图情况下仍生成描述性细节,则视为知识泄漏并予以惩罚,强制基于视觉证据推理 [6] 训练与部署流程及效果 - **标签与数据构建**:专家定义一级标签,利用MLLM扩展生成二级及三级细粒度Topic,形成知识树;对图像进行粗粒度(Top-3)和细粒度(Top-5)Topic匹配,结合IDS分数生成QA对,并通过多模型投票过滤低质数据 [7] - **SFT训练**:执行三阶段课程学习,期间穿插数据准入与拒绝采样机制,动态调整数据配比 [7] - **强化学习阶段**:阶段一在线RL使用GSPO算法,结合Pass@k和多样性奖励,重点提升多模态逻辑推理和STEM能力;阶段二离线RL使用DPO算法,利用人类偏好数据和对抗性幻觉数据,进行领域能力对齐和幻觉抑制 [7] - **推理部署优化**:采用分块预填充和视觉编码缓存策略,在用户输入阶段并行处理图像,以降低首字延迟 [7] - **垂直领域知识掌握**:在涉及理想汽车特定车型的问答中,MindGPT-4ov能准确识别车型设计特征及定位,而基座模型(Qwen3-VL)出现知识缺失或幻觉 [7] - **响应简洁性**:在MathVista等基准测试中,MindGPT-4ov的平均响应长度显著短于对比模型,同时保持了更高的准确率(83.3% vs 80.1%),验证了长度奖励机制的有效性 [8]
都是TOP人才!跑遍全球,和机器之心共聚AI学术顶会
机器之心· 2025-12-23 17:36
2025年活动回顾与成果 - 2025年AI技术加速发展,多模态大模型、智能体系统、基础理论突破和产业应用深化等技术跃迁重塑未来轮廓[1] - 公司围绕ICLR、CVPR、ACL、ICML、IROS、EMNLP、NeurIPS等AI顶会,跨越北京、新加坡、维也纳、温哥华、圣地亚哥等8座城市,落地11场活动,旨在通过人与人的连接和面对面对话追踪前沿[1] - 活动体系由“论文分享会”与“人才Meetup”两大系列活动构成,旨在打造有温度、有深度、有价值的AI交流生态圈[4] - 在北京举办的ICLR、CVPR、ACL、NeurIPS论文分享会,共邀请100+位论文作者分享最新成果,并对多模态、Agent、视频生成、大模型推理等热门话题进行深度解读与探讨[6] - 在新加坡、维也纳、温哥华、纳什维尔、圣地亚哥等地举办“云帆”系列AI Talent Meetup,在杭州、苏州发起“TalentAI50”闭门酒会,营造自由聚焦的交流场景,促成了新友初识、老友重逢以及合作意向的萌发[6] 2025年具体活动日程 - 4月24日在新加坡举办云帆·ICLR 2025 AI Talent Meetup[7] - 6月8日在北京举办CVPR 2025论文分享会[7] - 6月11日在美国纳什维尔举办云帆·CVPR 2025 AI Talent Meetup[7] - 7月15日在加拿大温哥华举办云帆·ICML 2025 AI Talent Meetup[7] - 7月19日在北京举办ACL 2025论文分享会[8] - 7月30日在奥地利维也纳举办云帆·ACL 2025 AI Talent Meetup[8] - 10月22日在杭州举办机器之心·IROS 2025 TalentAI50 Meetup[8] - 11月6日在苏州举办机器之心·EMNLP 2025 TalentAI50 Meetup[8] 2026年活动规划 - 2026年规划覆盖ICLR、CVPR、ACL、ICML、ECCV、CoRL、IROS、NeurIPS等顶会的全新系列活动[10] - 除“论文分享会”与“人才Meetup”外,新增设「AI顶会Happy Hours」系列,期待从北京辐射全球更多城市[10] - 4月ICLR会议期间,计划在北京、巴西里约热内卢、上海举办学术论文分享会、AI Talent Meetup、AI Happy Hours[11] - 6月CVPR会议期间,计划在北京、美国科罗拉多州丹佛市、上海举办学术论文分享会、AI Talent Meetup、AI Happy Hours[11] - 7月ACL会议期间,计划在北京、美国加利福尼亚州圣地亚哥、上海举办学术论文分享会、AI Talent Meetup、AI Happy Hours[11] - 7月ICML会议期间,计划在韩国首尔、北京、上海举办AI Talent Meetup、AI Happy Hours[11] - 9月ECCV会议期间,计划在瑞典马尔默、北京、上海举办AI Talent Meetup、AI Happy Hours[11] - 10月CoRL会议期间,计划在美国得克萨斯州奥斯汀、北京、上海举办AI Talent Meetup、AI Happy Hours[11] - 10月IROS会议期间,计划在美国宾夕法尼亚州匹兹堡、北京、上海举办AI Talent Meetup、AI Happy Hours[11] - 12月NeurIPS会议期间,计划在北京、海外、上海举办学术论文分享会、AI Talent Meetup、AI Happy Hours[11] 公司倡议与联系方式 - 公司诚邀志同道合的伙伴加入2026年旅程,共建「机器之心2026学术顶会活动」[13] - 目标合作伙伴包括希望链接全球AI人才的科技企业、希望提升影响力的科研机构或高校、以及关注前沿趋势的投资机构[14] - 提供了具体的联系人陈女士及其电话18206218056与邮箱chenyinyi@jiqizhixin.com[14]
智谱等2家企业完成境外上市备案
搜狐财经· 2025-12-23 14:15
上市进展与监管确认 - 中国证监会于12月22日晚确认智谱与MiniMax两家境内企业境外发行上市 两家公司均为赴港上市备案[1] - 智谱已于12月19日通过港交所上市聆讯[3] - MiniMax已于12月21日通过港交所上市聆讯[4] 智谱公司概况 - 公司专注于认知智能大模型的研发 核心业务围绕通用大模型的开发、服务提供及技术开源展开 包括通用语言模型和智能体模型的构建[3] - 截至2025年9月 其GLM模型已赋能全球12000家企业客户和逾8000万台终端设备[3] - 公司拟发行不超过43,032,400股境外上市普通股并在香港联合交易所上市[3] 智谱财务数据 - 2022年至2024年及2025年前六个月 公司营收分别为0.57亿元、1.25亿元、3.12亿元、1.91亿元[3] - 同期 公司净亏损分别为1.44亿元、7.88亿元、29.58亿元、23.58亿元[3] MiniMax公司概况 - 公司从事多模态大模型的研发与商业化应用 业务覆盖文本生成、语音合成、视频生成、虚拟角色、智能体以及全模态交互平台等多个方向[4] - 截至2025年9月30日 公司已有超过200个国家及地区的逾2.12亿名个人用户以及超过100个国家的13万企业客户[4] - 公司拟发行不超过33,577,240股境外上市普通股并在香港联合交易所上市[3] MiniMax财务数据 - 2022年至2024年及2025年前九个月 公司营收分别为0美元、346万美元、3052万美元、5344万美元[4] - 同期 公司净亏损分别为0.74亿美元、2.69亿美元、4.65亿美元、5.12亿美元[4]
海外市场收入贡献占比超70% MiniMax何以用385人“小团队”撬动全球AGI市场?
每日经济新闻· 2025-12-21 22:49
上市进程与市场地位 - 公司成立仅四年,或将创下AI企业从成立到IPO的最快纪录 [1] - 公司于12月21日首次刊发港交所聆讯后资料集,有望以“全球化AGI第一股”身份挂牌上市 [2] - 公司是全球唯四具备全模态能力的企业,也是亚洲首家、全球首批实现MoE架构商用的企业 [14] 全球化战略与市场表现 - 公司自创立之初即锚定全球化发展路径,产品为全球一体化发布,支持多语言 [5] - 截至2025年9月30日,公司AI原生产品累计为来自超过200个国家及地区的逾2亿名个人用户,以及来自超过100个国家及地区的10万家企业提供服务 [3] - 2025年前九个月营收同比增长超过170%,海外市场收入贡献占比超70% [3] - 旗下产品星野Talkie在全球累计用户超2.12亿,深度渗透北美、东南亚及欧洲市场 [7] 产品矩阵与商业化进展 - 公司推出了包括Talkie星野、海螺AI、MiniMax Agent、MiniMax Audio在内的AI原生产品矩阵,覆盖C端与B端市场 [3][7] - 已形成订阅服务、应用内购买、企业API等多元化盈利渠道 [9] - AI原生产品的付费用户数从2023年的约11.97万名增至2024年的约65.03万名,并于截至2025年9月30日止九个月进一步增至约177.16万名 [8] - 用户可通过海螺视频创造出播放量过亿的高收入剧集或单笔高价AI广告片,表明已找到愿意付费的用户群体 [7] 技术实力与研发成果 - 公司自主研发的多模态通用大模型矩阵初具规模 [2] - 2025年6月发布MiniMax-M1系列模型,并在随后四个工作日内实现“一日一更”的产品技术迭代 [14] - 2025年10月发布的开源文本大模型M2,在权威测评榜单Artificial Analysis中总分位列全球前五、开源赛道第一 [2][14] - 同月发布的新一代视频生成模型海螺2.3,在Artificial Analysis视频评测中位列全球第二,累计生成视频超5.9亿个 [14] - 语音模型Speech 2.6和音乐模型Music 2.0也相继发布 [14] - 研发人员占比近74%,团队凭借扁平化管理实现高效研发与运营 [11] 团队构成与运营效率 - 截至2025年9月底,公司员工总数385人,平均年龄仅29岁 [11] - 董事会平均年龄仅32岁 [11] - 团队在不到四年时间里实现了文本、视频、语音全模态模型的领先优势,同时完成全球化产品的研发与运营,人效稳居行业前列 [11] 发展理念与行业认知 - 公司创始人认为,将技术能力做到行业必需的程度,商业化自然会水到渠成,融资和变现是结果而非原因 [4] - 公司创立之初定下三条原则:直接服务客户、必须做国际化、坚持技术驱动 [6] - 团队早期预判,若AI行业受关注,国内可能先陷入纯免费模式,创业公司无法生存,因此坚定走国际化路线 [9] - 公司认为多模态融合是明确趋势,其技术积累和跨模态人才协作的优势能支撑其率先实现突破 [15] - 公司以可商业化的方式践行AGI理想,致力于让AGI成为“与所有人共享的智能” [12][15][16]
豆包大模型日均token用量破50万亿后,火山引擎将主战场押注Agent
钛媒体APP· 2025-12-19 18:05
豆包大模型1.8及Seedance 1.5 pro发布 - 火山引擎正式发布豆包大模型1.8及音视频创作模型Seedance 1.5 pro [2] - 截至12月,豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍 [2] - 已有超过100家企业客户累计token使用量超过一万亿 [2] 模型核心能力升级 - 豆包大模型1.8在Agent能力、多模态理解等方面已跻身全球第一梯队 [2] - 模型面向多模态Agent场景进行了定向优化,多模态是模型进入复杂企业应用场景的前提 [4] - 在Agent能力公开测评中,豆包1.8在数学、推理、复杂指令遵循等多项测试上与GPT-5High、Gemini 3 Pro等全球领先模型处于同一水平 [5] - 在通用体智能BrowseComp-en测试中,豆包1.8得分为67.6分,较上一代豆包1.6的16.7分大幅提升,并高于其他对比模型 [5] Agent能力具体进展 - 豆包1.8的“工具调用”能力可一次性调用20多个工具,完成跨平台比价、OA审批等长链条任务 [5] - 执行任务时平均规划步骤降低37%,执行成功率提升21% [5] - 模型原生支持智能上下文管理,可根据策略智能清除低价值历史信息,确保多步骤任务稳定完成 [5] - 在多模态理解方面,豆包1.8提升了视觉理解基础能力,可低帧率理解超长视频,并在视频运动理解、复杂空间理解等方面有提升 [5] 音视频创作模型Seedance 1.5 pro - 针对视频创作需求推出Seedance 1.5 pro音视频创作模型 [2] - 该模型具备影视级叙事张力,能精准捕捉运动细节并细腻呈现人物情绪,在音画同步技术上取得突破性进展 [2] - 个人用户可在豆包、即梦AI等平台体验,企业用户可通过火山引擎API接入服务 [2] 行业对Agent发展的看法与趋势 - 从中国视角观察,2024年是Agent元年,预计明年将继续爆发 [7] - 目前AI在PPT、短剧等创作尝试已非常多,预计明年品质将快速提升 [7] - Agent即将爆发已是行业共识,产业风向聚焦于实际应用场景与经济价值 [7][8] - 互联网、零售、汽车、教育等领域Agent应用进展较快,传统行业起步慢但天花板高 [7] - 企业客户消耗大部分token,但个人用户数量占主导 [7] Agent规模化带来的管理与运营挑战 - 当前最大挑战是Agent的开发和迭代速度远远跟不上模型能力的提升 [7] - Agent不只是开发问题,而是一个需要长期运营和管理的新系统 [7] - 预计企业拥有的Agent数量将从2024年的50多个增至2025年的200多个,管理、运营及协同能力需求迫切 [10] - 火山引擎已升级企业级AI Agent平台AgentKit,覆盖Agent从开发、部署到管控的全生命周期 [10] - 火山引擎推出HiAgent智能体工作站,构建统一的企业AI任务调度中心并提供开箱即用的通用智能体 [10] 多模态与行业早期状态 - 尽管多模态大模型需求旺盛,但行业仍处于早期,技术限制尚未完全突破 [3] - 模型需持续进化并逐步解锁新领域,这是成为“复杂智能体”的必经之路 [3]
火山引擎总裁谭待:谈论Agent与APP冲突还太早
第一财经· 2025-12-19 14:51
豆包大模型业务进展 - 火山引擎发布豆包大模型1.8与音视频创作模型Seedance 1.5 pro [2] - 豆包大模型日均tokens调用量已超过50万亿,较2024年9月的30万亿有显著增长 [2] AI Agent的发展阶段与行业观点 - 行业将互联网APP对AI的针对性限制解读为“Agent时代与APP时代之间的冲突”,但公司认为行业发展仍处早期,本质是观察视角问题 [2] - AI的核心价值在于更便利、更低成本地满足用户需求,从而创造增量,例如便捷配送服务可能将咖啡需求从一天一杯升级为两杯 [2] - Agent不会淘汰Web或APP,而是会与现有载体共存互补,通过需求扩容和用户时长增加形成新格局 [2] - 当前行业对AI与Agent的探索仍处于摸索阶段,市场需求已存在但模型尚不完善,企业实践各具特色,这种状态预计还会持续三年左右 [3] - 行业“是否准备就绪”的核心在于Agent工具的完善,公司内部正投入精力将存量功能转化为Agent可识别、可调用的工具 [3] Agent的技术挑战与多模态发展 - 无论是豆包AI助手还是APP,本质都是由众多复杂Agent构成的集合,不同功能背后对应不同逻辑的Agent [4] - Agent待突破的两大核心挑战包括基础能力支撑与满足真实线上落地的健全性、运行时稳定性、弹性伸缩、数据安全等高标准要求 [4] - 多模态大模型(如Seedance 1.5 pro)的迭代标志着AI应用向更深场景发展,使AI能“看、听、说、做”,处理视觉输入与输出 [4] - 多模态模型的应用场景包括驾驶时的路况识别、产品质检以及餐饮服务中的需求响应 [4] - 多模态模型较去年已能解决非常多问题,模型进步并解锁一个领域的更迭速度非常快 [4] - 厂商之间最重要的是先将市场做大,帮助各行业AI落地更快 [4] AI时代云服务的价值与趋势 - 作为云平台,火山引擎持续强调AI时代云服务的价值 [5] - AWS管理层曾表示其生成式AI平台Bedrock目标是成为“全球最大的推理引擎”,长期潜力可与规模约400亿美元的EC2服务媲美 [5] - 公司认可该趋势,并将MaaS(模型即服务)业务发展趋势类比芯片业务:GPU出货量已超过CPU,MaaS也将从训练转向推理 [5] - 以2025年初DeepSeek带火一体机销售但最终很多人“砸”手里为例,佐证AI时代云业务的重要性 [5] - 核心原因在于AI与大模型技术快速迭代(约三个月更新一代),且Agent、AgentKit、RAG等技术产品无法私有化部署,固定算力的一体机难以支撑丰富的AI应用落地 [5] - 基于此,公司判断软件时代的私有化一体机模式在AI时代将被淘汰 [5]
AI 时代,如何定义电商营销新范式
搜狐财经· 2025-12-19 11:08
行业AI升级背景与瓶颈 - 电商行业“用AI改造行业”口号提出多年,但过往实践较为零散,停留在“猜你喜欢”、“以图搜图”等单点能力,未能实现系统级深度改造[1][2] - 系统级改造面临两大核心瓶颈:一是早期AI技术不成熟,缺乏支撑全链路协同的底层能力;二是改造需穿透产品核心逻辑,新功能叠加会推高使用门槛,商家需投入高额人力物力,导致技术升级规模化落地困难[2] 抖音电商的AI破局与“千川・乘方” - 2025年,抖音电商通过发布“千川・乘方”产品,解决了技术深度升级与降低商家门槛的两难问题[3] - “千川・乘方”借助AI与平台精准用户洞察,旨在简化商家操作、提升用户内容体验,并实现预判与激发用户需求、千人千策,达成商家、用户、平台三方共赢[3] AI改造电商营销的成熟条件 - AI爆发需要两个前提:足够多的数据燃料和足够成熟的技术引擎,抖音电商目前已同时具备[4] - 数据燃料方面:抖音电商每日产生海量数据,包括116亿次电商短视频播放、486亿次UGC体验视频播放、44亿次电商直播间观看;每日看完短视频后激发的搜索次数达1.1亿次,74%的用户使用优惠券购买[4] - 抖音电商掌握行为、交易、内容三维数据,使其AI能深度理解用户身份、喜好、购买动机及转化链路,而非仅做表面信息匹配[4] 支撑AI成为主角的三大技术突破 - **突破一:Agent能力与强化学习结合**:基于强化学习的Agent系统能让AI像人类投手一样决策,实时监控ROI、点击转化率、复购率等数据,根据预设目标自动调整预算分配与出价,实现资金高效利用[5] - **突破二:MCP(模型上下文协议)技术成熟**:该技术为大型语言模型搭建操作中枢,使其能深入操作抖音电商多种营销工具的核心逻辑,基于算法决策进行针对性操作,几乎无需人工干预[5] - **突破三:多模态大模型落地**:抖音自研多模态大模型等技术的出现,解决了AI生成图片视频时的模糊、风格不一致、细节不符等问题,支持生成高分辨率视频图像、精准还原商品细节,并能批量生成同风格素材,将过去需团队半天完成的拍摄压缩至几分钟内生成多条营销素材[6] “千川・乘方”的三大技术组成与能力 - **千寻**:主打用户需求的精准预判,打通内容、商品、用户壁垒,实现三位一体个性化推荐,不仅能理解用户现有需求,还能预判潜在需求以激发消费欲望[8] - **千策**:主打营销策略制定,能替代复杂低效的人工计划,帮助客户增效并构建超级计划;客户仅需设定总预算和预期目标,系统即可自动进行最优分配[8] - **千意**:实现全场景动态生成,覆盖从创意生成、客服问答到智能诊断推荐,AI能根据实时数据自动创作、调整与优化[9] - 三大能力共同构成抖音电商AI营销的完整闭环,分别对应精准预判需求、经营全局优化、动态内容生成与服务[11] “千寻”的技术突破与价值 - 千寻借助大模型推理能力,将推荐系统从混沌无序进化为精准预判,能处理用户视频、音频、文字等多模态输入,汇聚成万亿多模态参数,并结合世界知识、电商知识、用户偏好进行推理,以精准推荐并预判需求[12] - **技术突破一:用户序列全生命周期拓展**:将用户行为序列从百级、千级拓展至万级,拉长关注周期,深度挖掘用户行为偏好及不同偏好间的潜在联系[13] - **技术突破二:模型尺寸与架构升级**:模型规模升级至万亿多模态内容理解参数与千亿独立序列推理参数的协同架构;万亿参数模型具备深度逻辑推理能力,能精准拆解短视频画面、音频、字幕及商品详情页等信息;千亿序列推理参数能分析用户行为序列背后的真实意图,进行综合推荐[14] - **技术突破三:世界知识储备与深度理解能力**:大模型能结合电商知识图谱及用户偏好进行智能推理,涵盖商品专业参数、行业趋势、用户消费习惯及生活场景,实现需求预判[15] - 千寻提升了用户内容体验与平台流量分发效率,解决了流量如何精准分配的问题[15] “千策”的核心逻辑与技术支撑 - 千策通过策略托管降低营销门槛,商家无需区分营销与广告、达人与广告等复杂设置,仅需输入总预算、综合优化ROI目标和待推广商品,系统即可自动生成覆盖全触点、全场景的超级计划[17] - 其能力由强化学习结合MPC(模型预测控制)技术构成的动态出价“大脑”,以及MCP技术构成的灵活工具“四肢”所支撑[17] - 强化学习使千策能从数据中学习最优策略,并在投放中不断试错优化;MPC算法能基于动态创意计算所有组合的可能结果,并实时动态调优以达成最优出价策略[17] - MCP技术使AI能直接操作不同工具,执行动态出价[19] - 千策改变了营销规则,使不同规模商家都能实现高效增长[16] “千意”的能力与价值 - 千意旨在解决商家在创意内容创作和服务方面的高成本难题,借助由大模型与X系统组成的智能服务Agent系统,快速生成并实时调整营销素材,覆盖创意生成、素材制作、客服问答、智能诊断全场景[19] - 在素材制作层面,借助多模态大模型能力,能将基础素材图、模特图转化为高质量商品图及短视频,自动匹配视频模板、背景音乐、字幕,并掌握直播电商的专业话术[20] - 在服务层面,例如“智投星”功能由多个子Agent组成,能自动诊断问题(如投流ROI下降)并分析原因(素材质量、竞品动态、流量渠道等),给出具体解决方案[23] - 千意能力的背后是抖音电商在多模态大模型技术积累和海量内容数据沉淀形成的知识库优势[23] 行业影响与时代定义 - “千川・乘方”(千寻、千策、千意结合)大幅降低了电商营销门槛,使中小商家可专注于产品,大商家能节省人力与时间成本用于产品创新与品牌建设[24] - 技术是驱动营销变革的底层动力,而营销需求也推动了AI技术的落地进化[24] - 文章定义了营销时代的演进:1.0时代靠渠道红利,2.0时代靠精准流量红利,3.0时代则靠AI红利,关键在于用好AI工具实现全局增长[24] - “千川・乘方”被视为营销3.0时代的典型代表,用AI重新定义电商营销,实现平台流量效率提升、商家营销成本降低与盈利空间提高、用户获得更精准优质内容体验的三方共赢[24] - 这预示着电商下一个十年的可能形态:营销交由平台与AI,商家回归生产与品质,增长变得更为高效[25]