Workflow
多模态理解
icon
搜索文档
除夕迎「源神」?Qwen3.5以小胜大,捅破性价比天花板,大模型竞赛下半场开始了
机器之心· 2026-02-16 18:09
文章核心观点 - 阿里发布的Qwen3.5-Plus模型,在多项核心能力上达到或超越了顶级闭源模型,同时实现了极低的推理成本,标志着顶级AI能力开始向高性价比和普惠化转变,可能引发行业竞争范式的变化 [3][7][8][25][26] 模型性能与定价 - 模型在多模态理解、复杂推理、编程、Agent智能体等核心能力上,在同级开源模型中领先,甚至能媲美或超越GPT-5.2、Gemini-3-pro等第一梯队闭源模型 [3] - 模型定价极具竞争力,每百万Token仅需0.8元,其直接对标的Gemini-3-pro价格是其18倍 [7] - 模型以3970亿的总参数(每次推理仅激活170亿参数),实现了对自家万亿参数模型Qwen3-Max的性能超越 [7][16] 底层架构创新 - 模型通过四项核心架构创新,实现了“以小博大”,告别了行业过去“力大砖飞”(堆叠参数量)的模式 [14][15][16] - **混合注意力机制**:使模型能根据信息权重动态分配注意力资源,处理长文本时兼顾精度与效率 [18] - **极致稀疏的MoE架构**:在397B总参数中,每次推理仅需激活17B参数(不到5%),能调用全局知识储备 [18] - **原生多Token预测**:训练时掌握对后续多个位置联合预测的能力,在代码补全、长文本生成等场景中推理速度接近翻倍 [18] - **系统级训练稳定性优化**:引入了包括荣获NeurIPS 2025最佳论文奖的“注意力门控机制”在内的深层优化,增强长上下文泛化能力 [18] - 上述创新使模型训练成本大降,算力部署成本较Qwen3-Max降低60%,在256K长文本下推理吞吐量提升19倍 [17] 原生多模态能力 - 模型实现了“原生多模态”,从预训练第一天起就在文本与视觉混合数据上进行联合学习,在统一参数空间内深度融合特征,避免了“外挂拼装”模式的信息损耗和性能失衡问题 [21][22] - 通过让不同模态“各走各的最优路径”并行策略及精巧的精度应用策略,成功将激活内存减少约50%,训练提速10%,即使同时输入文本、图像、视频数据,训练效率也几乎不受影响 [22] - 研发团队为不同场景搭建了专门的强化学习框架,将整体训练效率提升了3至5倍 [23] - 模型具备超越简单读图的能力,包括图像像素级空间定位、理解长达2小时视频的因果时序、将手绘草图直译为前端代码,以及化身视觉智能体自主操控设备完成复杂任务 [23] 行业影响与竞争范式 - 模型将顶级智能的“性价比”推向了新高度,当性能逼近闭源第一梯队而价格大幅下降时,将改变许多企业因成本过高而无法使用顶级AI的决策逻辑 [25] - 历史上改变行业的往往是最终变成基础设施的技术,如Linux和Android,开源降低门槛,生态将其铺开 [25] - Qwen3.5-Plus的背后是一整套从模型到算力再到云的联动,阿里通过开源释放模型能力,同时利用阿里云和自研芯片压低部署和推理成本,同时解决“用得好”和“用得起”的问题 [26] - 行业新的竞争方式正在成形:不再只是比拼模型最强,而是比拼谁能将足够强的能力变成最多人日常可用、用得起的基础设施 [26]
字节跳动豆包大模型2.0发布,多数基准达SOTA水平
搜狐财经· 2026-02-14 23:57
豆包大模型2.0发布 - 字节跳动宣布豆包大模型正式进入2.0阶段,围绕大规模生产环境使用需求进行系统性优化,具备高效推理、多模态理解与复杂指令执行能力 [1] - 豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和Code模型,以灵活适配各类业务场景 [1] 产品矩阵与部署 - 豆包2.0 Pro已在豆包App、电脑端和网页版上线,用户选择“专家”模式即可体验 [1] - 面向企业和开发者,火山引擎已上线豆包2.0系列模型的API服务 [1] - 豆包2.0 Code模型已接入AI编程产品TRAE [1] 模型性能与能力升级 - 多模态理解能力全面升级,在各类视觉理解任务上达到世界顶尖水平,视觉推理、感知能力、空间推理与长上下文理解能力表现突出 [2] - 在动态场景理解方面,模型强化了对时间序列与运动感知的理解能力,在TVBench等关键测评中领先,并在EgoTempo基准上超过了人类分数 [4] - 在长视频场景中,模型在大多评测上超越其他顶尖模型,在多个流式实时问答视频基准测试中表现优异,能完成实时视频流分析、环境感知、主动纠错与情感陪伴 [4] - 通过加强长尾领域知识,豆包2.0 Pro在SuperGPQA上分数超过GPT 5.2,并在HealthBench上拿到第一名,在科学领域的整体成绩与Gemini 3 Pro和GPT 5.2相当 [5] - 在推理和Agent能力评测中,豆包2.0 Pro在IMO、CMO数学奥赛和ICPC编程竞赛中获得金牌成绩,超越了Gemini 3 Pro在Putnam Bench上的表现 [5] - 在HLE-text(人类的最后考试)上,豆包2.0 Pro取得最高分54.2分,在工具调用和指令遵循测试中也有出色表现 [5] 模型定位与成本优势 - 豆包2.0 Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro [6] - 豆包2.0 Lite兼顾性能与成本,综合能力超越上一代主力模型豆包1.8 [6] - 豆包2.0 Mini面向低时延、高并发与成本敏感场景 [6] - 豆包2.0的模型效果与业界顶尖大模型相当,但token定价降低了约一个数量级,在复杂任务中成本优势更为关键 [8] 编程场景应用 - 豆包2.0 Code是基于2.0基座模型、针对编程场景优化的版本,强化了代码库解读和应用生成能力,并增强了Agent工作流中的纠错能力 [9] - 该模型已上线TRAE中国版作为内置模型,支持图片理解和推理 [9] - 以开发“TRAE 春节小镇 · 马年庙会”互动项目为例,通过TRAE+豆包2.0 Code,仅需1轮提示词构建基本架构,总共5轮提示词即可完成作品 [9]
从Gemini到豆包:全球两大AI巨头为何走上同一条路?
第一财经· 2026-02-14 23:19
豆包大模型2.0发布概览 - 字节跳动于2月14日正式推出豆包大模型2.0系列,这是其自2023年初始测试版上线、2024年正式发布后的又一次重大代际更新[1] - 此次2.0版本具备全栈模型矩阵、多模态理解、企业级Agent和极致成本四大差异化优势,已跻身全球第一梯队,成为Agent时代的关键玩家[1] - 在多项公开测试集上表现突出,接近Google Gemini3,并具备更高性价比[1] 模型定位与战略共识 - 旗舰版豆包2.0 Pro定位为“面向深度推理与长链路任务执行场景”,官方明确表示其全面对标GPT 5.2与Gemini 3 Pro[2] - 豆包2.0与Google Gemini的相似性正从“对标”走向“一致”,这反映了全球顶尖AI实验室在通往通用人工智能路径上达成的战略共识,即AI最终需要为人类完成任务执行,这需要对真实世界物理运行规律的理解[2] 模型系列与核心能力升级 - 豆包2.0系列提供Pro、Lite、Mini三款不同尺寸的通用Agent模型,其多模态理解能力实现全面升级,并强化了LLM与Agent能力,使模型能在真实长链路任务中稳定推进[4] - 在语言模型基础能力上,豆包2.0 Pro旗舰版在IMO、CMO数学竞赛和ICPC编程竞赛中取得金牌成绩,数学和推理能力达到世界顶尖水平[4] - 模型加强了长尾领域知识覆盖,在SuperGPQA等多项公开测试集上表现突出,科学领域知识测试成绩与Gemini 3 Pro和GPT 5.2相当,在跨学科知识应用上也排名前列[4] 多模态与Agent能力表现 - 豆包2.0全面升级多模态理解能力,在视觉推理、空间感知、长上下文理解等权威测试中均取得业界最佳表现[5] - 面对动态场景,模型强化了对时间序列与运动感知的理解能力,该能力已应用于智能健身App实时动作纠正、穿搭建议、老人看护等领域[5] - 在Agent能力上,豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶尖水平,在HLE-Text上获得54.2的最高分,大幅领先于其他模型[5] 产品上线与定价策略 - 豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户选择专家模式即可体验,火山引擎也已上线该系列模型的API服务[6] - 价格方面,豆包2.0 Pro按输入长度区间定价,32k以内的输入定价为3.2元/百万tokens,输出定价为16元/百万tokens,相比Gemini 3 Pro和GPT 5.2有较大的成本优势[6] - 豆包2.0 Lite极具性价比,综合性能超越上一代主力模型豆包1.8,百万tokens输入价格仅为0.6元[6] 核心突破:任务执行与成本优化 - 此次升级的核心落点是“真实世界复杂任务的执行力”,其根基在于多模态理解层的突破,让模型能从“答题者”进化为“执行者”[7] - 公司团队认为,现有LLM Agent在现实任务中碰壁的原因主要在于难以自主构建高效工作流以处理长时间跨度、多阶段的任务,以及专业领域的经验知识位于训练语料的长尾区[7] - 在提升长程任务执行能力的同时,模型还进一步降低了推理成本,其效果与业界顶尖大模型相当,同时token定价降低了约一个数量级,这对于消耗大量token的复杂任务至关重要[7] 多模态能力详解与行业对标 - 豆包2.0 Pro在视觉推理、空间感知、运动理解、长视频理解等维度的大多数相关基准测试中取得最高分[8] - 此前刷屏的AI视频模型Seedance 2.0(具备原声音画同步、多镜头长叙事、多模态可控生成能力)正是其多模态能力支撑的体现之一[8] - 豆包2.0可以处理复杂视觉输入并完成实时交互和应用生成,其升级方向与Google Gemini 3 Pro在视频理解、空间推理上的优势高度一致,均强调“原生多模态”能力,即在底层实现跨模态的深度对齐[8] 行业趋势:世界模型竞赛 - 豆包2.0与Gemini在基础模型层面均选择专注于多模态,本质上是在进行一场“世界模型”的军备竞赛[9] - 行业目标不再满足于让AI成为“语言游戏高手”,而是希望其成为能看懂、听懂、理解物理世界复杂性的“数字人类”,只有真正理解物理世界,AI才能在现实世界中可靠地执行任务[9]
豆包,重大升级!
中国证券报· 2026-02-14 17:49
公司产品发布与战略 - 字节跳动于2月14日发布豆包大模型2.0,这是其AI“全家桶”的全面出击,也是AI面向现实世界复杂任务的新起点 [1] - 豆包大模型2.0是自2024年5月正式发布以来的首次大版本跨代升级,在多模态理解、企业级Agent能力以及推理代码能力三个维度实现质的飞跃 [2] - 公司通过春节“红包”营销活动持续扩大豆包影响力,活动在2月13日和2月16日分阶段启动,用户可参与红包抽奖 [3] 产品系列与技术规格 - 豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和专为编程场景打造的Code模型,可灵活适配各类业务场景 [1] - 豆包2.0 Pro面向深度推理与长链路任务执行场景,全面对标GPT-5.2与Gemini 3 Pro [1] - 豆包2.0 Lite兼顾性能与成本,综合能力超越上一代主力模型豆包1.8;豆包2.0 Mini面向低时延、高并发与成本敏感场景 [1] 核心能力升级 - 在多模态理解方面,豆包2.0全面升级,在各类视觉理解任务上达到世界顶尖水平,视觉推理、感知能力、空间推理与长上下文理解能力表现突出 [2] - 在长程任务执行能力方面,豆包2.0在推理、多轮指令遵循、搜索、工具调用、输出格式稳定性等方面大幅增强,并系统性加强了长尾领域知识 [2] - 豆包2.0重点强化了指令遵循能力,可在长链路、多步骤任务中严格按约束条件执行,擅长连续完成“找资料、做归纳、写结论”等工作流 [3] 性能表现与基准测试 - 豆包2.0 Pro在大多数相关多模态基准测试中取得最高分 [2] - 豆包2.0 Pro在科学领域评测集SuperGPQA上分数超过GPT-5.2,并在HealthBench上拿到第一名,其整体成绩与Gemini 3 Pro和GPT-5.2相当 [2] - 在推理和Agent能力评测中,豆包2.0 Pro在HLE-text上取得54.2的高分,领跑全球;在国际数学奥赛(IMO)测评集上超越Gemini 3 pro [2] 成本优势与市场采用 - 豆包2.0在提升能力的同时进一步降低了推理成本,其模型效果与业界顶尖大模型相当,但Token定价降低了约一个数量级 [3] - 通过火山引擎对外提供服务的豆包大模型,截至2025年底,日均Tokens使用量达63万亿,上百万家企业通过火山引擎使用其服务 [3]
整整21个月,豆包大模型正式进入2.0时代!
量子位· 2026-02-14 16:13
豆包大模型2.0发布 - 公司发布了豆包大模型2.0,这是时隔21个月以来的最大版本更新 [1][2][8] 模型能力提升 - 模型在多模态理解、企业级Agent、推理和代码能力上均有显著提升 [9] - 在MathVista、MathVision、MathKangaroo、MathCanvas等数学推理基准上达到业界最优水平 [9] - 在LogicVista、VisuLogic等视觉解谜与逻辑推理基准上,Seed2.0 Pro得分较Seed1.8显著提升 [9] - 在VLMsAreBiased、VLMsAreBlind、BabyVision等基准中,取得了业界最高分 [11] 多模态与企业级能力 - 多模态理解能力出色,涵盖多模态感知、高精度文字提取、图表理解、空间理解、运动理解、视觉知识和推理、长视频理解等方面 [10] - 企业级Agent能力增强,能更好支持对技能的理解和应用,Function Call、多轮指令遵循、搜索和工具调用能力显著增强,格式输出更稳定,支持灵活的上下文管理,更好地支持企业级复杂、长程任务 [10] 数学与代码推理 - 模型具备更强推理能力,支持思考长度可调节,且各思考长度下,Tokens效率都有大幅提升 [10] - 在ICPC、IMO、CMO测试中均获得金牌成绩 [10] - 实测显示,模型能很好地理解并生成复杂的代码,例如基于群论的魔方解决算法前端页面、3D版大富翁游戏,甚至《我的世界》游戏 [13][16][17][20] - 能处理复杂的数学公式图解问题和数学问题 [22][23][25] 性能与成本优势 - 虽然能力变强,但推理速度没有明显延迟 [35] - Seed-2.0系列通过架构优化,在同等性能下大幅提升了Tokens效率,意味着企业应用成本可能更低 [35][36] 行业与战略意义 - 此次发布可能意味着公司在数据质量、训练效率及应用效果上突破了一个新的临界点 [33] - 模型展现出的工具调用和长程任务规划能力,显示其战略方向是面向ToB市场和生产力工具 [34] - 模型不再局限于聊天,而是致力于帮助用户完成项目、解决难题、生成商用级内容 [30]
Seedance 2.0之后,字节发布豆包大模型2.0
南方都市报· 2026-02-14 14:54
产品发布与核心定位 - 字节跳动于2月14日宣布推出豆包大模型2.0系列,旨在针对大规模生产环境进行系统性优化,以更好地完成真实世界的复杂任务 [1] 模型基础能力表现 - 豆包2.0 Pro旗舰版在IMO、CMO数学竞赛和ICPC编程竞赛中取得金牌成绩,超越了Gemini 3 Pro在Putnam基准测试上的表现,数学和推理能力达到世界顶尖水平 [1] - 模型在SuperGPQA等多项公开测试集上表现突出,科学领域知识测试成绩与Gemini 3 Pro和GPT 5.2相当,跨学科知识应用排名前列 [1] - 模型全面升级多模态理解能力,在视觉推理、空间感知、长上下文理解等权威测试中取得业界最佳表现 [1] - 模型增强了对时间序列与运动感知的理解能力,可实现实时视频流分析、环境感知与主动交互 [2] Agent与行动能力 - 豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶级水平,在HLE-Text上获得54.2的最高分,大幅领先于其他模型 [4] 产品上市与定价策略 - 豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户可选择“专家”模式体验 [4] - 火山引擎已上线豆包2.0系列模型的API服务 [4] - 豆包2.0 Pro按“输入长度”区间定价,32k以内输入定价为3.2元/百万tokens,输出定价为16元/百万tokens,相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [4] - 豆包2.0 Lite综合性能超越上一代主力模型豆包1.8,百万tokens输入价格仅为0.6元,极具性价比 [4]
在拉斯维加斯,我看到了体育的未来
搜狐财经· 2025-12-09 19:33
文章核心观点 - 亚马逊云科技正通过其云基础设施与人工智能技术,深度重塑体育行业,推动竞技数据分析、运动员训练、内容生产及观赛体验的全面革新,并将体育领域作为其尖端AI技术的“终极试炼场”,以证明技术在复杂物理世界中的鲁棒性,其价值未来可溢出至医疗、汽车等更广泛的产业 [2][5][21][22] 亚马逊云科技与NBA的战略合作及数据革命 - 2025年10月2日,NBA宣布与亚马逊云科技达成战略合作,标志着篮球数据分析从传统的“统计结果”迈向基于AI的“理解过程” [6] - 技术核心是通过计算机视觉和机器学习,以每秒60次的高频率实时捕捉并分析球员身上29个骨骼点的移动轨迹,实现多模态理解 [6][7] - 基于此,NBA在2025-26赛季推出三项全新高阶数据:1) **防守数据统计**,首次为防守贡献提供客观数据标尺;2) **投篮难度指数**,通过分析身体平衡、防守干扰等因素计算每次出手的“难度分”;3) **引力指标**,通过三角函数运算量化无球球员对防守的牵制力与为队友创造的空间价值 [9] - 在场下训练方面,如多伦多猛龙队的“数字投篮实验室”,利用摄像机网络与AI实时分析投篮的生物力学数据,可精确指出1度的姿态偏差,充当AI助教 [12] 亚马逊云科技在更广泛职业体育中的应用 - 在**F1赛车**领域,协助法拉利车队利用SageMaker开发进站分析系统,将单次进站分析时间从数小时压缩至60-90秒,并通过AI视觉识别换胎工动作细节以提升效率 [14] - 在车辆设计上,利用高性能计算进行千万次流体力学模拟,替代昂贵的物理风洞测试,使赛车设计迭代速度提升70% [14] - 在**NFL**领域,协助创建“数字运动员”平台,为球员构建云端“数字双胞胎”,通过运行数百万次比赛场景模拟(相当于10000个赛季的数据)来预测受伤风险,并基于模拟数据辅助联盟修改开球规则 [14] AI技术对体育内容生产与观赛体验的改造 - 亚马逊云科技发布的新一代自研模型(如Nova2系列,包括多模态模型Omni)正改变体育内容生态 [15] - **德甲联赛**利用Nova模型改造工作流,实现“自动化战报”、“德甲故事”生成,通过翻译和转录实现视频本地化,并推出“AI球迷助手”,在编辑人手不变的情况下几倍增加生成内容 [16][17] - AI为观众提供深度数据洞察,如德甲的“比赛事实”功能实时计算“预期进球概率”,以及“技能角色卡”功能自动分析球员的战术定位(如“终结者”、“策动者”) [16] - 生成式AI改变观赛互动逻辑,如NBA的“战术探索”功能允许球迷用自然语言(如“帮我找东契奇所有的后撤步三分”)搜索历史视频片段,AI结合语义理解与球员骨骼轨迹分析进行精准匹配 [17] - **VR观赛体验**得到升级,如NBA VR体验区允许用户以裁判或球员视角自由观看比赛,并实时展示投篮难度、防守统计等高端数据分析 [5][17] 体育作为AI技术的试炼场与溢出效应 - 体育场景因对毫秒级低延迟、物理世界极端复杂性及不可预测动作的极端要求,正成为AI的“终极试炼场” [21] - 在NBA总决赛、F1高速竞速、NFL激烈对抗等“魔鬼级”场景中验证的AI技术,证明了其在物理世界中极强的鲁棒性 [21] - 技术溢出效应前景可观:例如,用于保护NFL球员膝盖的算法未来可能应用于老人康复医疗;用于分析F1赛车流体力学的算力可能用于设计更高效的新能源汽车 [21] - 科技巨头在体育领域的投入不仅是商业行为,更是AI技术向物理世界和人体奥秘深度渗透的预演 [20][22]
国产AI进展探讨
2025-11-28 09:42
行业与公司 * 纪要主要探讨中国人工智能(AI)行业,特别是大模型、多模态AI、AI智能体(Agent)的发展现状、商业化路径及竞争格局[1] * 核心涉及的公司包括字节跳动、阿里巴巴、腾讯、百度(提及较少)、谷歌(Google)、Meta(OpenAI)等国内外科技巨头[2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22][23][24][25][26][27][28][29][30][31][32][33] 字节跳动的AI布局与进展 * 智能体平台“扣子平台”在国内智能体量和开发者数量上领先竞争对手[3] * 基于豆包2.0大模型的“豆豆包工坊”可生成小软件或应用,类似阿里的灵光[2][3] * 文生视频产品“即梦”日活跃用户数达300万,为国内第一,但全年平均收入仅约3,000万至4,000万[2][3] * B端业务火山云和maMAAS占据全国一半市场份额,但因优惠力度大收入不高,未来将通过增加营销、广告功能提升回报[3][4] * 豆包2.0大模型参数量提升至1T以上,增强抖音自媒体文案生成、电商营销方案等特定功能,并提升多轮交互和调用原生工具能力[2][5] * Token调用量分布:内部使用占1/3(其中80%用于搜广推和内容理解),豆包C端应用消耗14~15万亿Tokens,公有云对外输出约5~6万亿Tokens[31];即梦(原文为吉梦)日消耗Tokens从去年基本为零增长至1万亿,是今年增长最快的方向[31][32] 阿里巴巴的AI策略与优势 * 阿里“灵光”APP不再依赖通识模型操作软件,而是根据用户需求现场生成程序,旨在逐步取代部分软件功能[2][7] * 通过“千问”整合高德地图、饿了么等服务,实现流量引导,提升服务使用率,并通过会员体系(如八八会员)提供免费使用权以增强用户粘性[2][8][9][11] * 阿里在多模态能力上综合实力领先字节跳动,通常比字节早2~3个月发布相似功能,2025年下半年起差距扩大至3~6个月,在视频生成、语音模型等细分领域已超越字节[27][28] * 文生视频模型“万象2.5”能够同步生成带声音的视频,与谷歌VIO 3系列对标,在美感上不相上下甚至略有优势[30] * 阿里云服务器监控、算账及打车业务离线分析等B端场景适合Agent应用;百炼平台客户留存率和付费意愿更高[10] 腾讯的AI生态挑战 * 腾讯在AI生态上前期缺乏投入,导致基础日活用户不足,AI助手和对话功能未能有效吸引用户留存[26] * “元宝”作为对话型AI助手,难以长期留住国内用户,在生态系统方面不如千问,若不能迅速积累足够日活,其发展将受限[14][33] * 腾讯在2025年第三季度放缓了相关投入[33] 多模态AI的进展与影响(以Gemini 3为例) * Gemini 3模型在多模态理解(视频与文本高度融合)方面取得突破,能够处理复杂任务(如生成PPT),可能替代传统Office套件,标志着多模态市场进入新阶段[15][16] * 该技术将极大拓展市场需求空间,例如可实现更高级别的视频内容理解和精准推荐,提升广告投放精准度,带来巨大的B端API新增需求[21] * 谷歌凭借技术壁垒、TPU生态系统及强大的商业化版图(硬件、安卓、Google Cloud、搜索引擎),其他公司难以迅速追赶[19] * Meta需要跟进多模态技术以优化广告业务,但进展不顺利,其投入主要围绕自身业务进行低成本自用[20][24] AI商业化模式与竞争格局 * 国内公司商业化节奏更快,字节跳动早在两年前就开始试水各种模式[9];阿里策略是通过整合自身生态系统服务,不直接收费而是流量变现[9] * C端用户需要的是具体功能(如拍题解题、智能体对话、学习和工作场景),而非多轮对话的AI聊天,因此提供专业化服务和场景功能对提高用户留存至关重要[11][12] * 拥有强大生态系统(如阿里的地图、生活服务)的公司,在提供高价值实际服务、增强用户粘性和变现能力方面更具优势[11][12] * 未来竞争格局中,千问若经营顺利市场份额有较大增长空间;腾讯的“元气平台”类似低代码智能体平台,可通过小程序实现智能体调取,但需先提升日活[13][14] 技术细节与市场观察 * 文生视频领域分为导演系(注重画面精细度、美感,转场慢)和生活类/自媒体类(强调快节奏、逼真度),国内主流模型如阿里万象2.5属导演系[29] * 国内在多模态功能(如图片修改、文字处理)上与谷歌存在差距,主要由于谷歌先进的Token处理架构[30] * 生成式大模型(参数量约0.5B到3B)在广告搜索推荐中效果显著提升,同时算力消耗与上一代模型无异,使用新硬件可大幅降低成本[25] * 谷歌Chrome AI功能月活已达1亿,广告转化效果显著,每月约有80多亿次点击[22][23];Meta计划2026年投入1,000亿美元用于相关领域[22][24]
全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密
量子位· 2025-11-26 17:33
产品发布与定位 - 腾讯混元大模型团队正式发布并开源轻量级视频生成模型HunyuanVideo 1.5 [1] - 该模型基于Diffusion Transformer架构,参数量为8.3B,支持生成5-10秒的高清视频 [2] - 模型定位为“开源小钢炮”,以8.3B的极轻量尺寸实现开源最佳效果,显著降低使用门槛,可在14G显存的消费级显卡上运行 [6] 核心能力与性能 - 模型支持中英文输入的文生视频与图生视频,具备强指令理解与遵循能力,能精准实现运镜、流畅运动、写实人物和情绪表情等多种指令 [5][7] - 支持写实、动画、积木等多种风格,并可在视频中生成中英文文字 [5] - 可原生生成5–10秒时长的480p和720p高清视频,并通过超分模型提升至1080p电影级画质 [6] - 在10秒视频生成效率上,较FlashAttention3提速1.87倍 [15] 技术架构与创新 - 采用两阶段框架:第一阶段为8.3B参数的DiT模型,第二阶段通过视频超分模型提升视觉质量 [11][12] - 创新提出SSTA稀疏注意力机制,显著降低视频长序列生成的计算开销 [15][17] - 采用多模态大模型作为文本编码器,并引入byT5对文本OCR进行独立编码,增强视频文本元素的生成准确性 [20] - 采用多阶段渐进式训练策略,结合Muon优化器加速模型收敛,优化运动连贯性、美学质量及人类偏好对齐 [20] 质量优化与增强 - 为图生视频和文生视频任务分别定制了不同的RLHF策略,以修正伪影并提升运动质量 [23] - 视频超分系统采用8.3B主模型作为骨干网络,设计潜空间特征上采样模块,并应用基于MeanFlow的蒸馏算法缩短推理时间 [21][22] - 集成模型蒸馏、Cache优化等关键技术,大幅提升推理效率,降低资源消耗 [28] 应用与生态 - 腾讯元宝最新版已上线该模型能力,用户可在元宝中通过文字和图片生成视频 [3] - 模型已在项目主页、Github、Hugging Face等平台开源,并提供技术报告 [31]
谷歌Gemini 3夜袭全球,暴击GPT-5.1,奥特曼罕见祝贺
36氪· 2025-11-19 08:07
产品发布核心 - 谷歌正式发布新一代旗舰人工智能模型Gemini 3 Pro,该模型被定位为“史上最强推理+多模态+氛围编程”三合一的AI模型 [1] - 此次发布标志着公司在通往AGI的道路上迈出重要一步,被视为开启了AI的下一个时代 [3][9] - 发布获得了行业高度关注,包括OpenAI CEO在内的业界人士表达了祝贺 [1] 核心性能优势 - 在多项关键基准测试中,Gemini 3 Pro性能相较于前代Gemini 2.5 Pro实现全方位跃升,并在多项测试中超越竞争对手包括GPT-5.1和Claude Sonnet 4.5 [3][4][18] - 模型在LMArena排行榜上以1501 Elo分数名列榜首,在WebDev Arena排行榜上以1487 Elo分数登顶,展示了顶尖的推理和编码能力 [5][6][31] - 其核心优势体现在博士级推理能力,在Humanity‘s Last Exam测试中取得37.5%(无工具)和45.8%(使用搜索和代码执行)的成绩,在GPQA Diamond测试中取得91.9%的成绩 [4][17] 多模态与复杂任务处理能力 - 模型具备世界领先的多模态理解力,能处理文本、图像、视频、音频、代码等多种信息形态,在MMMU-Pro测试中获81.0%高分,在Video-MMMU测试中获87.6%高分 [4][19][28] - 在长程规划和智能体任务方面表现卓越,在Vending-Bench 2测试中以平均净值$5,478.16的成绩大幅领先于其他模型,展示了出色的长期规划能力 [4][38][40] - 模型具备100万token的上下文长度,能够帮助用户以个性化方式进行学习,例如破译手写食谱、分析教学视频并生成训练计划等 [28][30] 编程与开发能力 - Gemini 3在“氛围编程”和智能体编码方面实现突破,能够根据简单提示生成美观灵动的应用和复杂的Web UI [14][31][34] - 在编码基准测试中表现强劲,在LiveCodeBench Pro测试中获得2,439 Elo评分,在SWE-Bench Verified测试中取得76.2%的成绩 [4][32] - 公司同步推出革命性智能体开发平台Google Antigravity,该平台与Gemini 3紧密集成,允许开发者以任务为维度与智能体协同,实现端到端的软件任务开发 [42][45][47] 市场应用与生态整合 - 即日起,Gemini 3 Pro预览版全面上线,而更高级的Deep Think模式将稍后向Google AI Ultra订阅用户开放 [11][41] - 模型的API定价针对不同上下文长度设定,对于不超过20万token的请求,输入价格为每百万tokens $2.00,输出价格为每百万tokens $12.00 [24] - 模型已接入Google AI Studio、Vertex AI等多个开发平台,并与Cursor、GitHub、JetBrains等第三方平台集成,供全球开发者使用 [36] 技术实现与行业影响 - Gemini 3完全在谷歌自研的TPU上完成训练,这被视为公司重要的技术护城河 [54] - 早期实测演示显示模型能力强大,可一次性生成复杂的3D乐高编辑器、重现经典iOS游戏甚至构建Game Boy模拟器,展示了其在游戏开发和复杂应用构建上的潜力 [48][49][52] - 模型的发布在行业内引发广泛关注和讨论,一系列实测Demo展示了其在实际应用中的卓越表现 [48][52]