Workflow
多模态Agent
icon
搜索文档
全球大公司要闻 | 摩尔线程首次披露GPU路线图
Wind万得· 2025-12-22 06:35
热点头条 - 字节跳动发布豆包大模型1.8,进军多模态Agent领域,并推出Seedance1.5Pro视频生成模型,实现毫秒级音画同步,企业用户12月23日起可通过火山引擎API接入,同时公司正推进与vivo、联想、传音等硬件厂商开展AI手机合作,并宣布大幅提高人才薪酬和期权激励力度 [2] - 长安汽车获得国内首块L3级自动驾驶专用正式号牌,标志着公司率先开启L3级自动驾驶时代,中国成为继德国之后第二个为L3放行的国家,且将成首个成规模放行L3的国家 [2] - 摩尔线程发布新一代GPU架构“花港”,算力密度提升50%,效能提升10倍,并支持从FP4到FP64的全精度计算 [3] - 软银集团正争取在年底前完成对OpenAI的225亿美元融资承诺,并将牵头联合十余家日本企业开发国家人工智能系统,总价值约3万亿日元(约合190亿美元),计划汇集约100名专家开发日本最大的基础人工智能模型 [3] 大中华地区公司要闻 - 贵州百灵因2019-2021年及2023年多期年报存在虚假记载,遭证监会贵州监管局重罚,拟对公司及10名责任人罚款共计2560万元,董事长姜伟被采取10年证券市场禁入措施,公司股票12月23日复牌并被ST [5] - 阿里巴巴旗下钉钉启动代号为“D计划”的秘密项目,涉足AI硬件领域,被猜测将推出类似“豆包手机”的智能硬件产品 [5] - 青岛港拟合计投资157亿元建设董家口港区两个码头工程,以提升货物吞吐能力和运营效率 [5] - 健康元控股子公司NS-041片新增抑郁症适应症获临床试验批准,该药物为国内唯一同时开展癫痫和抑郁症临床研究的KCNQ2/3靶向药物 [5] - 智谱冲刺“全球大模型第一股”,即将登陆港股,招股书显示2022-2024年收入分别为5740万元、1.245亿元、3.124亿元,年复合增长率130% [6] 美洲地区公司要闻 - OpenAI截至今年10月已将其“算力利润率”提升至70%,该指标在2024年底仅为52%,在2024年1月时,目前的利润率几乎是当时的两倍 [8] - 耐克预计第三财季营收将录得较低个位数下降,反映出消费需求疲软及市场竞争加剧的影响 [8] - 特斯拉埃隆·马斯克获得重大法律胜利,特拉华州最高法院恢复其价值约550-560亿美元的薪酬方案 [8] - 美敦力糖尿病业务单元以“MiniMed”为名提交IPO申请,该业务2025财年销售额27.5亿美元,占公司总营收8%,分拆后预计提升美敦力整体毛利率50个基点 [8] 亚太地区公司要闻 - 三星电子推出全球首款2纳米工艺移动应用处理器Exynos 2600,已开始量产并计划搭载于明年2月推出的Galaxy S26旗舰手机,该芯片AI算力较上一代提升113% [10] - 丰田汽车广汽丰田全新雷凌L正式上市,售价12.98万元起,一汽丰田新款卡罗拉同步上市,厂家直销价9.9万元起,此外丰田投资扩建美国加州氢能网络 [10] - 三菱日联金融集团收购印度Shriram Finance 20%的股份,截至12月,2025年涉及日本公司的交易额已接近3500亿美元,创历史新高 [10] - 日本电报电话公司以超过160亿美元价格收购NTT Data集团 [10] - SK电讯因4月用户信息泄露事件,被韩国消费者院要求向58名索赔用户每人赔偿10万韩元(约合人民币475元) [11] - 现代制铁宣布投资优质废钢处理产能,以强化原材料供应链,助力钢铁生产降本增效 [12] 欧洲及大洋洲地区公司要闻 - 宝马集团与德国Encory合作的电池回收能力中心启用,采用创新直接回收技术,年处理量达数十吨,同时其第三代燃料电池系统将于2028年量产,与丰田联合开发,功率密度提升且体积减少25% [14] - LVMH集团再次投资名人美妆品牌,持续加码高端美妆市场布局 [15] - 瑞典Stegra公司(前身为H2 Green Steel)绿色板材钢厂建设项目中,电解槽安装进度已超过50%,项目计划于2026年投产,配备产能210万吨/年的直接还原铁工厂,计划2027年全面投产 [15] - 西班牙海德姆钢铁公司推进普埃尔托拉诺基地的绿色钢厂项目,包含一座150万吨/年的直接还原铁工厂,投产日期从2026年调整为2027年 [15] - 瑞典GreenIron公司即将在桑德维肯工业园区启用一座直接还原铁工厂,目前处于商业运营前的最后阶段,工厂采用专利零排放技术,以绿氢为还原剂,铁矿石处理量约3万吨/年 [15]
火山引擎FORCE大会追踪(1):豆包1.8/Seedance1.5Pro发布
海通国际证券· 2025-12-21 21:32
报告行业投资评级 * 报告未明确给出行业投资评级 [1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18] 报告的核心观点 * 火山引擎通过发布豆包大模型1.8、音视频模型Seedance 1.5 Pro以及配套的企业平台与定价方案,构建了“模型-平台-定价”一体化的竞争壁垒,旨在系统性降低企业AI规模化部署的门槛与总拥有成本,推动智能体从试点走向规模化部署 [1][4][17] 根据相关目录分别进行总结 豆包大模型表现与升级 * 截至2025年12月,豆包大模型日均token使用量突破**50万亿**,同比增长超**10倍**,服务超**100家**万亿级企业客户,表明模型已在生产环境中实现规模化验证 [1][13] * “50万亿日均tokens”是一项反映实际业务负载、服务等级协议及成本结构的经营指标,表明其已超越“可演示”阶段,进入高并发、长周期的企业生产环境 [2][14] * 豆包1.8的升级重点并非单纯提升文本生成能力,而是系统性增强多工具调用、复杂指令的稳定执行以及操作系统级智能体的可操作性,聚焦解决智能体规模化落地的“最后一公里”问题 [2][15] * 豆包1.8通过将视频理解帧数翻倍并提供长视频分层理解方案,为质量检测、教育培训、安防巡检、门店运营等高价值场景提供了工程化、可集成的能力接口 [2][15] Seedance 1.5 Pro音视频模型 * Seedance 1.5 Pro通过原生音视频联合生成架构实现**毫秒级**音画同步与多语言口型适配 [1][13] * 其“Draft样片”机制可提升约**65%**的创作效率,有效缓解了AI视频生成中输出不稳定、需反复调整的痛点 [1][13] * 该技术将高精度音画同步转化为稳定可交付的方案,有望推动品牌营销、电商内容、短剧等领域将生成式视频纳入标准化、规模化生产流程 [3][16] * 其能力已在豆包、即梦AI等个人端产品完成用户体验验证,并通过企业端API开放集成,形成了从消费端验证到商业端部署的完整商业化路径 [3][16] 企业端支持体系与竞争策略 * 火山引擎推出AgentKit/HiAgent平台,着力解决企业在权限管理、身份认证、可观测性、效果评估及系统运维等环节面临的系统性部署与集成成本 [1][4][17] * 火山引擎推出“AI节省计划”,通过承诺消费换取阶梯折扣的机制,将大模型调用从零散试用转变为可预算、可统筹的集中采购方式,有助于推动AI调用从“项目制费用”纳入企业“常态化IT支出” [1][4][17] * 火山引擎正通过“模型能力+平台工具+定价机制”的组合策略,系统性降低企业AI规模化部署的门槛与总拥有成本,旨在形成更高粘性的客户锁定效应 [4][17]
豆包家族继续发力,Agent是下一个战场?
证券时报网· 2025-12-21 15:17
豆包大模型1.8与多模态Agent战略发布 - 字节跳动在2025冬季FORCE原动力大会上正式发布豆包大模型1.8,切入“多模态Agent”核心赛道,标志着大模型技术进入从认知到协同的质变期 [1] - 公司通过强化模型的自主规划与API调用能力,旨在将AI打造为具备执行力的数字员工,而不仅是知识问答工具 [1] - 此次发布是继豆包手机助手后,公司在AI Agent领域的又一次重要尝试,此前已将大模型能力深度植入手机底层以实现跨应用串联任务 [1] Seedance 1.5 Pro视频生成模型升级 - 公司同步推出Seedance 1.5 Pro音视频创作模型,采用创新的原生音视频联合生成架构,支持环境音、背景音乐、人声等多种元素,实现毫秒级音画同步输出 [2] - 该系列即将上线“Draft样片”功能,允许创作者先生成低分辨率样片预览,其关键要素与最终成片高度一致,数据显示该功能可帮助创作者提升65%的整体效率并减少60%的无效创作成本 [2] - 个人用户已可在豆包、即梦AI等平台体验该模型,企业用户则从12月23日起通过火山引擎API接入服务 [2] 火山引擎的行业策略与成本优化 - 火山引擎总裁认为模型之间最重要的是共同做大市场,公司最早推动模型降价,通过技术大幅降低成本并保持毛利,以加速AI在行业的落地速度 [2] - 火山引擎推出业内首个“AI节省计划”,覆盖所有按量后付费的大模型产品,通过阶梯式折扣最高可帮助企业节省47%的成本 [3] - 公司指出传统IT架构已无法满足Agent时代需求,正在形成以模型为中心的AI云原生架构,并围绕Agent的开发与运营进行重构 [3] AI技术向核心生产系统深度渗透 - 公司通过豆包1.8与Seedance 1.5 Pro的发布,正加速推动AI向核心生产系统的深度渗透 [1][2] - 火山引擎通过从模型能力到基础设施的全面革新,推动AI应用从单一的模型调用向复杂的Agent智能体生态演进,以加速AI能力在各行各业的深度落地 [3]
豆包大模型日均调用量突破50万亿tokens 火山引擎深化AI时代Agent生态变革
新浪财经· 2025-12-20 04:27
核心观点 - 火山引擎发布豆包大模型1.8与音视频创作模型Seedance 1.5 pro,其大模型在多模态理解、生成及Agent能力上已跻身全球第一梯队,并展示了强劲的用户增长与商业化进展 [3] - 公司通过技术创新与成本优化,致力于降低人工智能技术门槛,推动AI普惠化落地,并认为大模型市场未来增长空间广阔,焦点在于共同开拓而非存量竞争 [3][6] - 公司正构建从模型能力到AI云原生基础设施的全面能力,以支持企业级Agent从开发到规模化运营,加速AI在各行各业的深度落地 [9][10] 豆包大模型1.8的技术升级与能力 - 模型定位从知识库转向执行器,针对多模态Agent场景进行定向优化,增强了工具调用、复杂指令遵循及OS Agent能力 [3][4] - 多模态理解能力实现飞跃,单次视频理解帧数从640帧提升至1280帧,支持以低帧率理解超长视频并调用工具进行高帧率关键片段分析 [4] - 在视频运动理解、复杂空间理解、文档OCR能力方面均有提升 [5] - 支持256K长上下文窗口,可通过API进行上下文管理,以更好地支持长程Agent任务 [5] - 通过更大的图片转tokens压缩比和思考长度可调节优化,在提升效果的同时进一步优化了成本 [5] - 在多项公开评测中表现强劲,在视觉推理、通用视觉问答、空间理解及视频理解等任务中获最佳或接近最佳成绩,在通用智能体测评集BrowseComp上全球领先,数学与推理等基础能力接近全球顶尖通用模型 [6] 豆包大模型的商业化进展与市场策略 - 截至今年12月,豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍 [3] - 目前已有超过100家企业客户累计token使用量超过1万亿 [3] - 公司认为大模型市场明年规模能再扩大10倍,各方焦点在于携手开拓增长空间而非存量竞争 [6] - 发布了豆包助手API,将对话、思考、搜索等核心能力开放,帮助企业开箱即用或构建自定义豆包 [10] - 推出了业内首个全模型参与抵扣的AI节省计划,基于承诺用量提供阶梯式折扣,最高能帮助企业节省47%的成本 [10] 音视频创作模型Seedance 1.5 pro的创新 - 采用创新的原生音视频联合生成架构,能同时处理环境音、背景音乐和人声对白,实现毫秒级音画同步,解决了口型对不上、音画脱节的问题 [7] - 支持多人多语言对话,口型对齐精准,覆盖中文方言、英文及小语种 [7] - 在运动细节捕捉和人物情绪呈现上达到影视级标准,具备自发的镜头调度能力,可执行长镜头跟随、希区柯克变焦等高难度专业运镜 [7] - 即将上线“Draft样片”功能,可生成低分辨率样片预览,据测算可帮助创作者提升65%的整体效率,并减少60%的无效创作成本 [8] - 个人用户已在豆包、即梦AI等平台可体验,企业用户自12月23日起可通过火山引擎API接入服务 [8] AI云原生架构与企业级Agent生态 - 传统的IT架构已无法满足Agent时代需求,以模型为中心的AI云原生架构正在形成并围绕Agent开发与运营进行重构 [9] - 在企业Agent开发层面,全面升级了企业级AI Agent平台AgentKit,覆盖Agent从开发、部署到管控的全生命周期 [9] - 在企业Agent运营层面,推出了HiAgent智能体工作站,构建统一的企业AI任务调度中心,提供开箱即用的通用智能体并支持个性化定制,2025年累计服务数百家行业头部企业 [9] - 企业Agent应用正发生关键跨越:平均一家企业投产的智能体数量从2024年的几十个增至2025年的200多个,个别企业甚至超过千个;应用场景从to C娱乐延伸到to B的严肃生产场景 [10] - 小米集团案例显示,AI云原生架构帮助其手机业务将资源交付周期从一周缩短到10分钟以内,并帮助汽车业务提升训练稳定性和仿真效率,缩短算法迭代和上车周期 [9]
大厂多模态Agent能力激战正酣
证券日报· 2025-12-18 23:40
火山引擎产品发布 - 公司于12月18日发布豆包大模型1.8及音视频创作模型Seedance1.5pro [1] - 截至12月,豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍 [1] - 目前已有超过100家企业客户累计token使用量超过一万亿 [1] 豆包大模型1.8技术升级 - 模型核心升级围绕打造更强大的Agent大脑展开,针对多模态Agent场景进行定向优化 [2] - 在复杂指令遵循、多轮交互及操作系统级别实际操作能力上实现系统性增强 [2] - 视觉能力底层升级,单次视频理解帧数提升至1280帧,并能以低帧率解析超长视频 [2] Seedance1.5pro音视频创作模型 - 模型采用原生音视频联合生成架构,实现毫秒级音画同步 [2] - 能基于画面景深和角色数量,精准匹配多人、多语言对话的口型 [2] 行业阶段与趋势 - 大模型行业已从参数竞赛进入以多模态Agent为核心的产业落地新阶段 [3] - AI价值从“单点生成”向“全链路执行”质变,具备在垂直场景中闭环完成任务的能力 [3] - IT基础设施从“功能驱动”向“智能驱动”范式重构,未来软件形态将是以Agent为主体的智能协同网络 [3] - 大模型应用正在跨越“成本与稳定性”的规模化门槛 [3] 市场竞争格局 - 主要云厂商已将战略重心调整至多模态智能体平台,竞争维度升级为全栈技术、开发生态与行业场景的立体化角逐 [4] - 阿里云在9月全面升级全栈AI体系,其通义旗舰模型Qwen3-Max在聚焦Agent工具调用能力的Tau2-Bench测试中取得突破性高分 [4] - 阿里云发布Agent开发框架ModelStudio-ADK和低代码平台ModelStudio-ADP,将Agent开发效率提升至“1个小时”开发一个深度报告项目的水平 [4] - 百度搜索于10月15日全面升级文心助手AIGC创作能力,支持8种模态创作,并支持一键调用多工具解决多场景问题 [4] 火山引擎竞争策略 - 公司全面升级企业级AI Agent平台AgentKit,覆盖Agent从开发、部署到管控的全生命周期 [5] - 推出HiAgent智能体工作站,构建统一的企业AI任务调度中心,提供开箱即用的通用智能体并支持个性化定制 [6] - 推出业内首个“AI节省计划”,通过阶梯定价承诺最高可为按量付费企业节省47%的成本 [6]
豆包大模型1.8正式发布,拥有更强多模态Agent能力,豆包日均使用量超过50万亿,推出成本节省计划降幅达47%
硬AI· 2025-12-18 22:05
核心模型能力升级 - 豆包大模型1.8发布,具备更强的多模态Agent能力,拥有256K超长上下文和原生API上下文管理,擅长处理复杂多步任务 [2][3][5] - 模型在多模态理解上显著提升,长视频理解和安防监控场景能力增强,可辅助公司处理复杂任务并支持决策 [5] - 图像创作模型Doubao-Seedream-4.5同步发布,具备多图组合、创意写真、图片拆解、复杂组图、虚拟试穿与海报设计等能力 [3][5] - 视频生成模型Seedance系列发布,其中Seedance-1.0-Pro支持2至12秒1080P自由生成,可实现多人语言对白和多镜头叙事,提供影视级画质与原生音效 [3][7] 产品应用与生态构建 - 豆包大模型已落地智能硬件与语音助手,应用场景覆盖日常沟通、专业服务与报告解读、联网搜索等,配合边想边搜交互体验 [9] - 推出“火山方舟”推理代工服务,已接入Qwen、GLM、Seed-OSS等主流开源大模型,支持企业将精调后的模型一键Serverless部署,提供海量资源与专属推理加速 [11] - Viking系列产品亮相,包括VikingAI搜索与VikingDB向量数据库,配套多模态搜索支持文本、图像跨模态检索和个性化推荐,为Agent快速构建知识库 [13] - 发布企业级AI Agent平台AgentKit与TRAE(CN)企业版,已获NIO、PwC、汇付天下等头部客户采用,支持10万文件、5亿行代码超长上下文,可灵活配置企业规则与知识库 [15] 市场表现与成本优化 - 火山引擎平台“万亿Tokens俱乐部”成员已突破100家,豆包大模型日均使用量超50万亿Tokens,自发布以来增长417倍 [3] - 正式推出“AI节省计划”,采用一次性加入机制,覆盖豆包大模型、视频图像创作模型及第三方开源大模型,最高节省幅度达47%,支持全预付、零预付等多种付款方式 [2][3][18] - 公司认为明年模型行业市场可能再涨10倍,重点在于共同做大市场而非存量竞争,同时模型需要进一步降价以推动市场增长 [4] - 此次发布有望推动AI在企业生产场景中的落地应用,Agent开发工具的升级与生态扩容是关键 [3][18]
【周四美股盘前你需要了解的全球要闻】 通胀超预期放缓!美国11月核心CPI为2.6%,创2021年以来最低涨幅。 美国上周首申人数回落至22.4万人,好于预期。 特朗普:将很快宣布新任美联储主席,是一个认同低利率的人选。 5比4惊险过关!英国央行“鹰派”降息25个基点,称进一步判断宽...
搜狐财经· 2025-12-18 22:05
宏观经济与政策 - 美国11月核心CPI同比涨幅为2.6%,创2021年以来最低涨幅,显示通胀超预期放缓 [1] - 美国上周首次申请失业救济人数回落至22.4万人,好于市场预期 [1] - 英国央行以5比4的投票结果决定降息25个基点,但表示未来进一步宽松的判断将更艰难 [1] - 欧洲央行连续第四次维持利率不变,重申通胀将在中期回归2%的目标 [1] - 德国政府计划将2025年发债规模上调至5120亿欧元,以支持基础设施和国防建设 [1] 科技与半导体行业 - 美光科技(MU)美股盘前股价上涨超过14%,因芯片需求旺盛,公司最新业绩与未来指引均大幅超出市场预期 [1] - 豆包大模型1.8版本正式发布,该版本拥有更强的多模态Agent能力 [1] 人工智能与前沿科技 - 据报道,OpenAI正在商讨以约7500亿美元估值进行新一轮融资,融资规模可能达数百亿美元,最高或至1000亿美元 [1] - 特朗普媒体集团(DJT)美股盘前一度大涨逾30%,公司计划并购核聚变公司TAE,并计划于明年开始建设核聚变发电厂 [1] 生物医药行业 - 礼来公司宣布,其口服减肥药在临床试验中显示,患者从诺和诺德的Wegovy和礼来自身的Zepbound转用该口服药后,能有效维持减重成果 [2] 金融市场动态 - 对冲基金巨头Steve Cohen旗下的Point 72资产管理公司正考虑开启大宗商品交易业务 [3] - 亚太市场收盘涨跌互现,日经225指数收跌1%,上证综指收涨0.16%,恒生指数收涨0.12% [4]
港股尾盘走强!关注今晚大事件,明天日本央行或加息、股指期货交割
搜狐财经· 2025-12-18 17:04
市场行情与指数表现 - 上证指数当日涨幅为0.16%,创业板指跌幅为2.17%,市场成交额缩量至1.67万亿元 [5] - 港股市场尾盘走强,恒生指数涨幅为0.12%,恒生科技指数跌幅为0.73% [5] - 前一日科技股大涨,当日科技股大跌,行情波动剧烈 [1] 行业与板块涨跌 - 领涨行业包括银行(+1.97%)、煤炭(+1.89%)、石油石化(+1.25%)、国防军工(+0.90%)、轻工制造(+0.86%)[6] - 领跌行业包括电力设备(-2.22%)、通信(-1.58%)、电子(-1.51%)、综合(-1.13%)、机械设备(-0.64%)[6] - 领涨概念板块包括昨日连板(+5.64%)、SPD概念(+5.61%)、DRG/DIP(+3.43%)[6] - 领跌概念板块包括英伟达概念(-3.56%)、PCB(-3.08%)、苹果概念(-3.06%)、ChatGPT概念(-3.27%)[6] 美股AI与科技股动态 - 美股AI龙头前夜大跌,甲骨文跌幅超过5%,博通跌幅超过4%,英伟达与谷歌跌幅均超过3% [2] - 美联储理事沃勒表示,随着就业市场趋弱且通胀受控,美联储仍有50至100个基点的降息空间,但无需采取激烈行动 [1] - 前总统特朗普表示将任命一位认同低利率的新美联储主席 [1] - 纳指走势不佳,英伟达面临破位风险,市场期待“金发姑娘”叙事,后续通胀数据将影响降息预期和AI科技股表现 [3] 数据中心与AI基建项目 - 甲骨文规划容量达1吉瓦(GW)的数据中心项目受阻,其最大合作伙伴Blue Owl决定不再提供原计划高达100亿美元的资金支持 [1] - 该项目原计划为OpenAI提供服务,此次挫折不仅是项目暂停,更反映出甲骨文“第三方持有+长期租赁”的AI基建扩张融资模式在更紧的信贷环境下遭遇压力测试 [1] - 市场担心项目延迟可能扩散,并导致资本开支延期 [1] A股相关公司股价表现 - A股光模块、PCB板块当日调整,新易盛大跌超4%,工业富联跌超5% [2] - 当日跌幅居前的部分A股公司包括:工业富联(-5.24%)、东山精密(-6.22%)、生益电子(-5.91%)、沪电股份(-5.40%)[3] 大模型与汽车电池合约 - 火山引擎发布豆包大模型1.8,该模型日均使用量(Tokens)超过50万亿,自发布以来增长417倍 [3] - 福特汽车取消了与LG新能源签订的65亿美元(约合460亿元人民币)电动汽车电池合同,该金额相当于LG新能源去年总收入的37.5% [3] - LG新能源股价因此暴跌近9%,A股宁德时代股价当日也大跌近3% [3]
豆包 1.8 多模态超越谷歌Gemini 3!字节祭出“推理代工”,要做模型届的英特尔?
AI前线· 2025-12-18 15:24
豆包大模型1.8核心性能与能力 - 火山引擎正式推出新一代豆包大模型1.8,面向多模态Agent场景深度优化 [2] - 模型上下文窗口达256k,最大输入Token长度为224k,最大输出及思考内容Token长度均为64k [2] - 运行效率高,TPM(每分钟处理Token数)达5000k,RPM(每分钟请求数)为30k [3] - 原生支持智能上下文管理,可配置策略清除低价值历史信息,确保多步骤任务稳定完成 [7] 评测表现与行业地位 - 在AIME 2025等Agent评测集上稳步提升,在通用智能体测评Benchmark上取得全球领先成绩 [3] - 多模态理解方面,在视觉判断准确性、空间理解、文档解析、视频运动识别等多项能力上超越Gemini 3,其他任务处于全球第一梯队 [3] - 具体评测数据:在数学(AIME-25)得分94.3,推理(GPQA-Diamond)得分83.8,复杂指令遵循(MultiChallenge)得分66.7,通用智能体(BrowseComp-en)得分67.6 [4] - 多模态能力评测:多模态推理(MMMU-Pro)得分73.2,通用视觉问答(VLMsAreBiased)得分62.0,空间理解(MMS/Bench)得分25.8,文档与图表理解(OmniDocBench)得分0.106,动作机感知(MotionBench)得分70.6,长视频理解(VideoMME)得分87.8 [4] 多模态与Agent应用场景 - 演示中成功规划流程,调用十余个工具,在多个电商平台完成耳机全网比价与最优选择,能力可应用于电商、生活服务及企业自动化流程 [5] - 能快速低帧率浏览1小时4分钟的监控视频,精准定位事故画面并分析肇事车辆与时间,能力可拓展至在线教育、安全巡检、产品质检等领域 [5] - 大幅提升视觉理解基础能力,可低帧率理解超长视频,并在视频运动理解、复杂空间理解、文档结构化解析能力上有所提升 [7] - Tool Use能力、复杂指令遵循能力、OS Agent能力均实现大幅增强 [7] 图像与视频生成能力 - 豆包大模型拥有全球领先的图像与视频生成能力,覆盖从图像创作与编辑、视频生成、数字人制作到3D模型生成的完整创作链条 [8] - 新一代豆包生图模型Seedream 4.5在复杂指令遵循、画面元素保持能力上大幅提升,融入更丰富世界知识 [8] - Seedream 4.5能将不同人物、物体与场景照片智能组合生成创意合影,将汽车渲染成分解结构图,制作多卡通角色主题拼图,实现逼真的模特虚拟试穿及专业级产品营销海报 [8] - 视频生成模型Seedance 1.5 Pro正式登场,核心特点为音画同步输出、多人多语言对白配音及更强的影视级叙事张力 [9] - Seedance 1.5 Pro实现声音与画面在时间、语义上的精准同步,能根据角色数量和身份精准匹配口型,原生支持多种语言及中国各地方言 [9] - Seedance 1.5 Pro能通过提示词生成充满细节和情感张力的画面,驾驭影视级镜头语言和叙事张力 [11] - Seedance系列将上线“Draft样片”功能,可先快速生成低分辨率样片验证创意,帮助用户将整体创作效率提升65%,并减少60%的无效创作成本 [13] 企业服务与市场进展 - 截至今年12月,豆包大模型的日均tokens调用量已突破50万亿,自发布以来实现417倍增长,与去年12月相比实现超过10倍增长 [6] - 2025年已有超过100万家企业及个人使用火山引擎大模型服务,覆盖百余行业,其中超过100家企业在火山引擎的累计tokens使用量突破1万亿 [16] - 火山引擎正式推出“豆包助手API”,将豆包APP核心的对话、思考、搜索、创作等Agent能力以API形式开放,首批文本相关能力已上线 [16] - 豆包APP是国内用户规模最大的AI应用,从技术角度看是中国最复杂、难度最高的AI Agent之一 [16] 成本优化与推理服务 - 火山引擎推出业界首个“AI节省计划”,平台上所有按量付费的大模型均可参与,企业各部门享受统一价格优惠,不同模型用量可合并累计 [17] - “AI节省计划”采用阶梯折扣,用量越多节省越多,最高可节省47%的成本 [17] - 火山方舟正式推出“推理代工”服务,针对典型开源大模型结构提供极致的弹性伸缩、全栈推理优化与分布式缓存等支持 [18] - 用户上传加密模型参数后无需运维底层GPU,根据测试,以云上集群替代自建集群可使硬件与运维成本下降约一半,采用方舟推理代工服务对比云上租赁GPU算力可获得额外1.6倍左右的吞吐提升 [18] - 火山引擎能在分钟级完成百卡到千卡的算力伸缩以应对突发流量 [18] - AI产业的推理与训练走向分工与分层是大势所趋,对大多数团队而言,低成本、高吞吐地“推理好”一个大模型可能比“后训练好”一个模型更为困难 [19]
前字节剪映AI产品负责人创业,获硅谷基金及BV百度风投投资,要做营销多模态Agent
36氪· 2025-11-01 09:16
文章核心观点 - 文章聚焦于AI多模态领域的创业机会,认为当前技术拐点已至,创业公司应聚焦于垂直场景的AI应用开发,而非基础模型[7][8][9] - 核心论点是企业用户不需要复杂的AI工具,而是需要能够直接交付成品视频的端到端解决方案,这存在明确的商业机会[11][21][30] - 面对Sora等基础模型的快速迭代,应用层公司应将自己定位为"造船的人",利用底层模型能力的提升来增强自身产品,并保持快速迭代以应对变化[7][44][78] 创始人背景与创业契机 - 创始人廖谦拥有丰富的AI产品经验,曾在腾讯云、字节跳动火山引擎和剪映负责AI产品,其主导的产品曾达到千万DAU和百万月活[5][13][17] - 2024年初Sora的发布被视为多模态的"ChatGPT时刻",促使廖谦加入生数科技,带领Vidu产品从0到1达到数千万美金收入[5][18][19] - 在生数科技期间,通过处理上千单企业级AIGC需求,发现企业端到端交付解决方案的痛点,从而决定创立"极致上下文"公司[8][20][21] - 公司于2024年8月成立,在融资PPT未完成的情况下,半个月内迅速敲定了由HT investment和BV百度风投投资的数百万美金首轮融资[5] 公司定位与产品战略 - "极致上下文"公司不做基础模型,而是定位为"造船的人",即通过整合各种AI模型能力,为企业提供端到端的营销视频生成服务[7][9][30] - 首款产品是一个营销Agent,前端通过多模态交互理解企业需求,后端整合AI模型,直接交付成品视频,而非工具[9][30][34] - 公司选择从"生产力信息"场景切入,如企业营销内容,因为这类需求ROI清晰可量化,目标是将制作成本降低十倍,速度提升百倍[9][35][36] - 未来愿景是打造一个新时代的"AI表达系统",但当前阶段务实聚焦垂直场景,类比移动互联网早期应专注像美团、滴滴这样的垂直应用[10][31][69] 技术拐点与市场判断 - 多模态模型在2024年达到商业化拐点,效果与成本综合达标,AI生成视频成本相比传统制作可降低到十分之一[23][36] - 2024年9月ChatGPT o1的发布标志着大模型推理能力成为优化问题而非可行性问题,多模态模型的一致性也得到显著提升[24][25] - 中国在AI视频领域具有独特优势,短视频生态领先全球1-2年,国内对视频落地的理解和经验可以迁移至海外市场[10][17][62] - 多模态领域的发展路径与大语言模型不同,数据质量的重要性远超参数规模,数据做得好即使模型不大效果也可能很好[60][61] 对Sora的评估与行业影响 - Sora App的发布被评估为一项AI System而不仅是模型,其具备叙事能力和镜头语言,尤其在社交娱乐内容上表现领先[47][48][50] - Sora的发布对应用层公司是重大利好,意味着可用工具更强大、门槛更低,同时会刺激整个行业和资本市场的活跃度[43][45][51] - OpenAI通过Sora App的账号体系设计显示出其构建GPT生态的野心,将永久降低AI社交和娱乐的毛利,迫使大厂防守[54][55] - 创业公司需找到足够硬的切入点,使用户愿意"多持"不同产品,并建立快速反应机制,以每周迭代应对基础模型每两三个月的更新[58][78] 商业模式与未来拓展 - 商业模式是直接交付服务结果(如合格视频),而非保证业务效果(如转化率),价格和质量标准明确,用户为确定性的交付物付费[72][73] - 未来拓展方向是沿垂类场景进行,如教育、办公等,因不同场景的交互形态和行业知识差异大,通用Agent难以做深[69][70][76] - 信息表达正进入"生成时代",AI能聚合理解信息后动态生成全新内容,实现真正个性化,这改变了推荐时代的游戏规则[67][68][76] - 创业公司应更冒险和激进,尝试未被验证的可能性,建立快速迭代文化以在不确定的技术环境中保持竞争力[80][81][83]