多模态智能
搜索文档
最强大模型的视觉能力不如6岁小孩
36氪· 2026-01-22 21:10
多模态大模型视觉推理能力现状评估 - 当前顶尖多模态大模型在BabyVision视觉推理基准测试中表现不佳,能力仅相当于或低于三岁儿童水平 [1] - 表现最强的闭源模型Gemini 3 Pro Preview得分为49.7%,与六岁儿童相比仍有20%的差距,与成年人94.1的水平相比更是天壤之别 [1][4] - 其他前沿模型如GPT-5.2、Claude 4.5 Opus、Grok-4等整体表现甚至不如三岁小孩 [5] 主流模型在基准测试中的具体表现 - 在闭源模型中,Gemini 3-Pro-Preview以49.7%的得分领跑,随后是GPT-5.2 (34.4%) 和豆包-Seed-1.8 (30.2%) [10] - 其余闭源模型表现不尽人意:Qwen3-VL-Plus 19.2%,Grok-4 16.2%,Claude-4.5-Opus 14.2% [11] - 在开源模型中,表现最好的是Qwen3VL-235B-Thinking,总分达到22.2%,但仍无法与顶尖闭源系统匹敌 [12][13] 当前模型架构的核心缺陷与瓶颈 - 当前多模态大模型通常先将视觉输入转化为语言表征来处理,这导致无法被语言准确表达的视觉信息在过程中丢失 [14][15] - 这种“视觉问题语言化”的处理方式,使得模型在处理细粒度几何信息、精确空间关系等“不可描述”的视觉特征时面临根本性限制 [15][19] - 研究指出,要真正推进多模态智能,未来的模型必须从底层重建视觉能力,而不是继续依赖将视觉问题翻译成语言来“绕行” [7] 模型在四大视觉核心能力维度的具体挑战 - **细粒度辨别**:模型难以处理非言语性精细细节,如小的偏移、特定边界曲线或像素级差异,常将不同选项当作类似处理 [19] - **视觉追踪**:模型难以在长距离空间中可靠维持感知一致性,例如在连线任务中容易在交叉点走岔 [22][25][26] - **空间感知**:模型缺乏从二维图像构建稳定三维内部表征并进行心理变换的“空间想象力”,容易漏掉被遮挡物体或使用错误投影关系 [28][31] - **视觉模式识别**:模型难以从少量视觉示例中总结通用变化规则,其常见做法是数属性而非理解“发生了什么变化” [32][34] 提升视觉推理能力的潜在技术路径 - **基于可验证奖励的强化学习**:以Qwen3-VL-8B-Thinking为基座进行RLVR微调后,模型整体准确率从13.1%提升至17.9%,提升了4.8个百分点 [35][36] - RLVR微调在细粒度辨别、空间感知和视觉模式识别子任务上分别带来6.8、5.9和5.9个百分点的提升 [36] - **基于生成模型的视觉推理**:研究通过BabyVision-Gen评估了生成模型直接输出图像或视频流来表达解题过程的能力 [37] - 在280道题目上,NanoBanana-Pro准确率达18.3%,GPT-Image-1.5与Qwen-Image-Edit分别为9.8%和4.8% [38] - 生成模型展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,支持“生成本身即是推理的一种高级形式”的观点 [39][44] 行业未来发展趋势 - 研究揭示了一个关键趋势:将生成模型转化为原生多模态推理器,以绕过“语言瓶颈” [44] - 像Bagel这样的统一架构,能够在推理过程中保留高保真的视觉表征,允许模型在视觉空间内进行“显式思考” [44] - Sora 2和Veo 3等模型在建模物理动力学与空间关系上的能力,进一步支持了视觉生成作为高级推理形式的观点 [44]
最强大模型的视觉能力不如6岁小孩
量子位· 2026-01-22 19:13
文章核心观点 - 当前顶尖多模态大模型在视觉推理能力上表现不佳,整体水平仅相当于或低于三岁儿童,与成年人水平(94.1)差距巨大[1][2][4] - 模型表现不佳的根本原因在于其主流架构依赖将视觉信息转化为语言进行推理,导致大量无法被语言精确描述的细粒度视觉信息丢失[11][20][21] - 未来的多模态智能发展需要从底层重建视觉能力,探索绕过“语言瓶颈”的新架构,例如基于生成模型的视觉推理[11][68][71] 模型在BabyVision基准上的表现 - 在BabyVision视觉推理基准测试中,表现最佳的闭源模型是Gemini 3 Pro Preview,得分仅为49.7%[14] - 其他前沿闭源模型得分更低:GPT-5.2为34.4%,豆包-Seed-1.8为30.2%,Qwen3-VL-Plus为19.2%,Grok-4为16.2%,Claude-4.5-Opus为14.2%[14][15] - 表现最好的开源模型是Qwen3VL-235B-Thinking,总分为22.2%,但仍远低于顶尖闭源系统[16][18] - 所有模型的表现与六岁儿童相比仍有约20%的差距,与成年人94.1的水平更是天壤之别[2][4] 当前多模态大模型面临的视觉核心挑战 - **非言语性精细细节的缺失**:模型将视觉输入转化为粗略的语言描述,导致如精确几何形状、边界曲率、像素级差异等无法被语言描述的细节丢失,在“找拼图”等任务中出错[25][26][29][30] - **流形一致性的丢失**:模型难以在长距离空间中维持感知一致性,例如在“连线任务”中,将连续曲线拆解为指令序列后,在交叉点容易走错路径[31][34][35][36] - **空间想象力的不足**:模型难以从二维图像构建稳定的三维内部表征并进行心理变换,在从特定视角想象物体形状的任务中,因空间信息在文本摘要中被压缩而犯错[39][43][44][45] - **视觉模式归纳的困难**:模型难以从少量视觉示例中总结通用变化规则,通常采用数属性的文本匹配方式,而非理解视觉关系的变化逻辑,在“找规律”任务中出错[47][48][50][51][52] 改善视觉推理的潜在技术方向 - **基于可验证奖励的强化学习(RLVR)**:在Qwen3-VL-8B-Thinking模型上进行RLVR微调后,整体准确率从13.1%提升至17.9%,提高了4.8个百分点,在细粒度辨别、空间感知和视觉模式识别等子类任务上均有提升[55][56][57] - **基于生成模型的视觉推理**:研究通过BabyVision-Gen基准评估生成模型,NanoBanana-Pro表现最优,整体准确率达18.3%,GPT-Image-1.5和Qwen-Image-Edit分别为9.8%和4.8%[60][61] - 生成模型如NanoBanana-Pro、Sora-2展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,但单纯的生成能力仍需稳健的视觉语义理解引导[62][66] - 统一架构(如Bagel)允许模型在推理过程中保留高保真视觉表征,在视觉空间内进行“显式思考”,支持“生成本身即是推理的一种高级形式”的观点[68][69][70][71]
“几乎所有大模型,视觉能力都不如3岁小孩”
观察者网· 2026-01-12 20:21
核心观点 - 一项最新的多模态理解评测显示,当前绝大多数顶尖多模态大模型的视觉任务表现显著低于3岁儿童水平,仅有一款模型勉强超过3岁基线,揭示了其在基础视觉能力上存在系统性缺失 [1][4] 评测设计与结果 - 评测集BabyVision-Mini包含20道严格控制语言依赖的视觉中心任务,并设立3岁、6岁、10岁、12岁儿童作为对照组 [4] - 结果显示,大多数顶尖模型的得分集中在明显低于3岁儿童平均水平的区间 [4] - 唯一表现较好的Gemini3-Pro-Preview模型仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距 [4] - 在扩展至388道题的全量BabyVision-Full评测中,人类对照组(16位本科以上背景参与者)准确率高达94.1% [8] - 在BabyVision-Full评测中,表现最佳的闭源模型Gemini3-Pro-Preview准确率仅为49.7% [9] - 开源模型中最强的Qwen3VL-235B-Thinking整体准确率不足22.2%,其他开源模型得分集中在12%-19%区间 [9] 模型视觉能力的具体短板 - 大模型的视觉能力在四大类别(精细辨别、视觉追踪、空间感知以及视觉模式识别)上存在全方位不足 [10] - 模型面临的第一类挑战是“非语言细节”缺失,将视觉信息压缩为语言概括时,像素级差异被抹平,导致选项在token空间里变得“几乎一样” [12] - 第二类挑战体现在轨迹追踪任务中,模型将连续路径翻译成离散步骤,难以保持连续性,遇到交叉点易产生路径分叉,从“跟随一条线”退化为“猜测终点” [14] - 第三类挑战是空间想象能力缺失,在三维相关任务中,模型依赖不真实的文字描述,导致漏掉隐藏块或搞错投影关系 [14] - 第四类挑战是图形规律归纳难题,模型易关注颜色、形状等外观属性,将“结构规则”误读成“外观统计”,导致迁移时产生幻觉规则 [16] 能力差距的典型案例 - 在一道垃圾分类连线题中,三岁儿童能轻松完成,而最强的Gemini3-Pro-Preview虽写下大段推理过程,最终仍给出错误答案 [6] - 在空间想象任务中,Gemini3-Pro-Preview错误地忽略了积木块,导致计数错误 [16] - 在图形规律任务中,阿里千问成功判断出部分结构,但在选项识别上出现错误 [18] 根本原因与潜在方向 - 造成大模型普遍超低评分的核心原因在于,许多题目具有“不可言说”的特性,无法在不损失信息的情况下被完整语言化 [18] - 人类可通过直觉式方式解题,但模型必须将视觉信息压缩为token进行语言化处理,此过程会丢失大量关键细节,最终导致推理失误 [18] - 研究团队通过让视觉推理“落地到视觉操作”上,例如让Sora2进行一笔一划的绘制,成功完成了部分连线图像,但Sora2也仅画对了其中一条线 [18][20] - 未来或可通过让模型进行绘画、临摹等方式进行推理,以恢复其文字推理所缺失的能力 [20] - 为了推动多模态智能发展,未来的模型必须从根本上重建视觉能力,而非依赖语言推理 [20]
长文本检索大突破,联通团队研发的新模型,准确率提升近两成
搜狐财经· 2025-12-03 04:15
模型技术突破 - 中国联通数据科学与人工智能研究院团队研发的HiMo-CLIP模型,解决了现有图像检索模型(如CLIP)在处理带多个特征的复杂长文本描述时准确率下降的“说越多错越多”难题[2][6] - 模型核心创新在于HiDe模块,该模块采用动态语义指纹提取技术,能自动识别描述中最具区分度的关键信息,例如识别“福特皮卡”时,“超大轮胎”比“有色车窗”更具区分性,该技术准确率达89.3%[7][8] - 模型采用MoLo损失机制进行双重对齐保障,既匹配整个文本语义,又强化核心特征匹配,确保描述增加有效信息时匹配得分上升,在MSCOCO-Long测试集上mAP指标比Long-CLIP提升近两成[11][13] 性能与效率 - 模型在A100显卡上的推理速度仅增加7%,对硬件要求不高,可在普通服务器上运行[10] - 模型在提升长文本处理能力的同时,在短文本任务上未出现性能倒退,在Flickr30K数据集上保持了98.3%的原始性能[13] - 在多项基准测试中,HiMo-CLIP(Ours)使用ViT-B/16架构在1M数据规模下,取得了89.2/89.6、77.8/79.9、58.6/57.1的优异性能指标[12] 商业化应用与行业影响 - 京东已试点采用该技术改进商品搜索功能,当用户使用“黑色连帽卫衣带白色抽绳和刺绣logo”等复杂描述时,搜索转化率提升了27%[14][15] - 自动驾驶领域正尝试应用该技术解析包含多元素的复杂路况描述,如“前方施工区域有黄色警示牌和穿橙色背心的工人”,以提升环境识别准确性[18] - 项目已在GitHub开源,不到半年获得2.3k星标,字节跳动、商汤科技等公司已在试用[18] 发展前景与行业意义 - 模型当前在处理如“碳纤维车身包围”等特别专业的术语时仍有提升空间,团队计划于2026年第三季度发布多语言版本[21] - 该模型的创新思路提示行业,AI模型发展不应仅追求数据拟合,更需模拟人类认知逻辑,结合知识图谱构建结构化语义空间可能是多模态智能发展的新方向[21] - 该模型的成功证明了中国团队在AI基础研究领域具备强大实力[21]
小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度
量子位· 2025-11-13 08:49
核心观点 - DeepEyesV2是DeepEyes模型的重大升级版本,实现了从“会看细节”到“能主动解决复杂问题的智能体”的进化 [3] - 该模型突破性地实现了代码执行、网页搜索和图像操作的全工具协同,解决了传统多模态模型工具调用能力薄弱和多能力协同缺失的痛点 [3][4][5][8] - 通过“冷启动+强化学习”的两阶段训练策略,模型具备了自适应推理能力,能根据任务难度动态调整工具调用策略 [37][71][72] 多工具协同能力 - DeepEyesV2能够动态选择、组合和使用工具,包括生成可执行Python代码、进行网络搜索查询和图像操作 [23][24][26] - 模型采用“推理—工具—整合”的循环工作模式,直至得出准确答案,支持在单一轨迹中动态结合代码执行和搜索 [22][25][27] - 代码执行在沙箱环境中进行,产生结构化输出;图像查询通过SerpAPI提交,返回排名前五的视觉匹配网页 [24] 性能表现 - 在团队构建的RealX-Bench基准测试(包含300个真实场景问题)上,DeepEyesV2准确率远超开源模型 [41][45] - 在数学推理任务上,DeepEyesV2(71.9)相比Qwen2.5-VL-7B(68.3)提升3.6个百分点;在MathVerse上从45.6提升至52.7,提升7.1个百分点 [48] - 在搜索任务中,DeepEyesV2在MMSearch上达到63.7,相比Qwen2.5-VL-7B Search提升11.5个百分点 [49] 训练方法论 - 采用两阶段训练策略:阶段一为冷启动,使用感知类、推理类、搜索类和CoT数据打好基础;阶段二为强化学习,通过“准确率+格式规范”双奖励机制优化工具调用 [37][38][43] - 强化学习后模型工具调用率显著下降,从冷启动阶段的90%以上降至自适应水平,表明模型学会了“按需调用”工具 [66][67] - 最优数据组合为“感知+推理+CoT”,三类数据结合后模型在感知和推理测试集上均实现最优表现 [58] 技术突破 - DeepEyesV2通过强化学习自主获得了通过代码访问API的技能,而该行为在训练数据中并不存在 [19] - 模型展现出任务自适应的工具使用模式,对于真实世界感知任务偏向使用裁剪工具,数学推理任务主导使用数学计算,搜索任务主要使用搜索工具 [62][63] - 在复杂问题解决示例中,模型能依次调用图像搜索、文本搜索和代码执行API获取雅虎金融数据并进行计算 [15][16][17]
腾讯研究院AI速递 20251111
腾讯研究院· 2025-11-11 00:30
生成式AI模型进展 - OpenRouter平台上线隐名模型Polaris Alpha,其知识库截止2024年10月,最大上下文容量256K,单次最大输出128K,目前可通过API免费调用 [1] - 纽约大学谢赛宁等发布Cambrian-S多模态新范式,提出"空间超感知"概念,在空间认知任务上中小型模型超越Gemini [2] - 阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX,该模型约3B参数,情感与风格控制准确率优于MiniMax、Doubao等闭源模型 [5] AI编程工具发展 - 美团推出AI IDE编程工具CatPaw,背后核心引擎为自研LongCat大模型,在内部研发人员周活占比超80%,每周新增代码中AI生成占比约50% [3] - 芸思智能推出AI IDE Vinsoo,通过算法突破实现极限有效上下文达千万量级,支持最多8个智能体同步运行开发 [4] - 行业观点认为AI工具无法替代创始人的销售能力,AI SDR仅在已有运转良好销售流程时有效,技术挑战和开源策略是护城河而非障碍 [9] 多模态AI硬件与应用 - 百度小度AI眼镜Pro正式开售,融合多模态AI大模型,支持中英文实时翻译3秒内出字幕等功能 [6] - 银河通用推出灵巧手神经动力学模型DexNDM,首次实现通用灵巧手对多类物体的稳定、多姿态、多轴向旋转操作,能完成拧螺丝等工具使用 [7][8]
进博会现场直击
证券日报· 2025-11-06 23:49
人工智能产业趋势 - AI已从技术展示升级为驱动产业变革的关键力量,渗透医疗、工业、零售、出行等全领域 [2] - 本届进博会展示400余项AI相关创新成果,显示全球AI产业从技术探索向价值创造全面转型的趋势 [2] - 人工智能大模型从通用能力展示转向垂直场景深耕,例如西门子的“工易魔方.妙一空间”将AI大模型与数字孪生技术融合 [3] 多模态与具身智能 - 具身智能机器人实现多模态人机交互的成熟化和工业场景具身操作的落地,例如智元创新公司的远征A2和灵犀X2机器人 [4] - 零售人形机器人能精准识别不规则商品,实现1人远程操控10家门店机器人,在夜间无人值守场景下节约90%人工成本 [4] - 到2030年,全球零售业若规模化应用AI,年度运营利润将新增3100亿美元,整体增幅近20%,企业运营利润率有望从3%提升至14.4% [4] 行业应用与市场前景 - 到2029年全球机器人市场规模将突破4000亿美元,具身智能机器人市场占比预计超过30% [6] - 在医疗领域,AI实现从诊断到治疗的全链条解决方案,例如西门子医疗的智慧影像链和迈兆辉健康的“AI魔镜”,其健康指标检测准确率达90% [7] - 迈兆辉健康的“AI魔镜”产品上市18个月售出2000台,积累了500万标本检测数据 [7] 工业与汽车智能化 - AI成为传统产业提质增效的核心引擎,例如ABB的冷轧工序智能制造方案实现节能减排与提质增效 [8] - 特斯拉首发Cybercab无人驾驶电动车,取消方向盘与脚踏板,计划2026年二季度量产,目前在美国开展路测 [8] - AMD提供覆盖数据中心、边缘终端、智能汽车的全场景AI解决方案 [3] 中国市场与生态合作 - 中国拥有全球最完整的工业体系、最庞大的消费群体和最丰富的应用场景,为AI技术产业化提供肥沃土壤 [10] - 前七届进博会累计展示新产品新技术新服务约3000项,意向成交额超5000亿美元,累计吸引境外参展商2.3万家次 [11] - 进博会成为全球前沿技术落地应用的重要窗口,中国正成为全球创新的催化剂和试验场 [11]
智源悟界·Emu3.5发布,开启“下一个状态预测”!王仲远:或开启第三个 Scaling 范式
AI前线· 2025-11-01 13:33
模型核心创新与定位 - 悟界·Emu3.5是全球首个基于"Next-State Prediction"范式的原生多模态世界模型,通过自回归架构实现对多模态序列的预测,模拟人类自然学习方式[2] - 模型核心能力是预测下一个时空状态,这对于具身智能至关重要,使其能理解世界运行规律并进行因果推理[2] - 该模型代表了一项融合算法、工程架构、数据训练范式与模型思想的综合性原始创新,而非单一的算法或工程改进[9] 核心技术特点与能力 - 具备三大核心能力:从高层级人类意图自主生成详细连贯的多步骤行动路径、在统一框架内动态模拟世界并预测物理动态与长时程因果关系、作为泛化交互基础提供关键的认知基础[3] - 采用自回归架构实现多模态数据大一统,能够大规模复用现有计算基础设施,其Next Token可以是视觉和文字Token且性能无损[8][10] - 通过自研DiDA技术将自回归模型的推理速度提升20倍,实现了可媲美闭源系统最强图像生成的能力,大幅降低了原生多模态的成本[17][19] 训练方法与数据规模 - 训练分为两阶段:首先在约13万亿tokens上进行端到端预训练,随后在1500亿样本上进行有监督微调,再通过大规模强化学习提升多模态推理与生成能力[12] - 预训练消耗超过10T Token,大部分数据是长视频而非文字主导,使用了约6300万条视频,平均时长6.5分钟,总时长约790年,覆盖教育、娱乐、体育等多个领域[13] - 模型目前仅为340亿参数规模,所使用的视频数据仅占全互联网公开视频数据的不到1%,显示出巨大的Scaling up潜力[13] 性能表现与行业意义 - 在多项基准测试中,Emu3.5在Alignment指标上得分为0.902,Text指标上得分为0.994,Overall综合得分0.564,表现优于包括Gemini-2.5-Flash-Image(0.550)在内的其他主流模型[5] - 该模型首次证明了多模态领域存在Scaling可能性,开启了继语言预训练Scaling和后训练与推理阶段Scaling之后的第三个Scaling范式[6] - 与市面上多数采用组合式架构的模型相比,Emu系列的自回归架构可扩展性更强,避免了模型遗忘现象,并解决了Agent任务优化等企业落地难点[8]
AI不再「炫技」,淘宝要让技术解决用户每一个具体问题
机器之心· 2025-10-28 12:31
文章核心观点 - 颠覆性创新通过使产品更简单、更便宜、更易用,让更多人参与,此观点在AI浪潮中依然适用 [2] - 淘宝将AI深度融入电商场景的每个环节,致力于解决具体用户问题,AI已成为其算法基因 [3] - 技术创新与商业变革双向驱动,形成“技术创造价值—价值反哺技术”的双螺旋演进模式 [12] - 多模态智能是AI时代的关键技术域,能实现跨模态推理,是支撑“所想即所得”终极消费体验的基石 [11][34] - 公司判断,若模型能力保持当前进化速度,狭义AGI很可能在5-10年内到来 [40] AI时代的技术演进与商业驱动 - 当前AI技术迭代迅猛,每年都呈现跳跃式发展,从ChatGPT到Sora 2,技术突破速度震撼 [7] - 回顾互联网发展史,技术升级与产品迭代始终围绕技术发展与商业变革双向驱动的螺旋轨迹演进 [7] - PC互联网时代关键词为“数字基石”,无线互联网时代关键词为“时空折叠”,AI时代关键词为“智能增强”,实现人类与技术的“共生” [10] - 与前两次技术革命不同,AI时代生成式AI带来生产力的代际提升,多模态智能成为核心技术域 [11] 淘宝的AIGX技术体系与多模态布局 - 公司于2024年3月全面升级AIGX技术体系,具备完整的技术链条,覆盖电商经营全部场景 [3] - 从2023年起大力布局AI,自研多模态、搜推广、视频生成等大模型家族,通用能力达国内第一梯队水平 [11] - AIGX技术体系覆盖AIGI(索引)、AIGR(推荐)、AIGB(出价)、AIGA(拍卖)、AIGC(创意)、AIGD(数据)等场景 [3] - 多模态智能是公司最重要的AI技术域,已在AIGX技术体系中深度应用 [13] 生成式推荐系统RecGPT的应用与成效 - 公司于2024年7月发布百亿参数推荐大模型RecGPT,实现生成式推荐技术升级,并接入手机淘宝“猜你喜欢” [14] - RecGPT基于多模态大模型,能结合世界知识生成新内容或个性化推荐序列,突破传统推荐系统的数据局限 [14][16] - 模型能理解用户长达十年的行为信息,全模态认知数以亿计商品,进行推理推荐潜在需求商品 [17] - 搭载RecGPT的推荐信息流实现用户点击量增长超过16%,用户加购次数和停留时长提升5%以上 [21] 多模态生成技术在电商场景的实践 - 自研视频生成模型“淘宝星辰”能基于单张商品平铺图,全自动生成虚拟模特展示图、视频片段及完整带货视频 [23] - 升级版“淘宝星辰・视频生成模型3.0”采用更紧凑的时空压缩VAE,提升语义理解,动作更灵动,画面更原生 [25] - 全模态大模型“TStars-Omni”支持文本、图像、视频、音频等多模态输入输出,能进行深度推理 [27] - 基于TStars-Omni的商品理解功能,可分析用户提问并给出建议,如判断冰箱是否能放入特定厨房 [28] 技术开放与生态建设 - 公司于2024年6月开源强化学习训练框架ROLL,专为高效、可扩展、易用设计,支持高达600B+参数模型的训练 [38][39] - 于2024年10月初开源生成式预估训练框架RecIS,为推荐模型与多模态大模型训练提供统一架构解决方案 [39] - 通过开源内部验证后的技术能力,旨在形成生态扩张动能,促进行业迈向超级智能时代 [39] - AI Agent产品iFlow CLI采用“一个内核,多种应用方式”设计,面向个人用户永久免费开放 [28][30]
开源仅一周,鹅厂文生图大模型强势登顶,击败谷歌Nano-Banana
机器之心· 2025-10-05 14:42
行业竞争格局 - 腾讯混元图像3.0以1167分登顶LMArena文生图完整榜单第一,超越谷歌Gemini-2.5-flash-image-preview(1151分)、字节跳动Seedream-4-2k(1144分)和OpenAI GPT-Image-1(1126分)等竞争对手 [1][2] - 图像生成领域呈现多模态融合与智能深化趋势,从“能生成”向“能理解、能推理、能控制”演进 [55] - 开源成为核心推动力,国内AI公司通过开放模型权重借助社区协作实现快速迭代 [56] 公司技术实力 - 混元图像3.0参数量达800亿,推理时每个token激活130亿参数,是公司规模最大、性能最强的开源文生图模型 [3] - 模型采用混合式离散-连续建模策略,在统一框架内融合语言建模、图像理解和图像生成三大功能 [42][43] - 基于超百亿规模原始图像库筛选构建近50亿张高质量训练数据集,数据纯净度不足45% [45] - 通过四阶段渐进式预训练和包括SFT、DPO、MixGRPO、SRPO及ReDA在内的后训练策略优化模型表现 [49][53] 产品性能表现 - 模型具备原生多模态架构和世界知识推理能力,能理解复杂提示并生成连贯故事场景,如“曹冲称象”九宫格漫画 [9] - 在精确文字生成和长文本渲染方面表现突出,有效改善文字乱码和字形扭曲问题 [16] - 支持多分辨率图像生成,在文图一致性与视觉质量方面超越Seedream 4.0、Nano Banana、GPT-Image等顶尖模型 [51][54] - 发布一周内GitHub星数突破1.7k,社区热度持续攀升 [6] 公司战略布局 - 公司围绕混元模型家族形成全栈式AIGC体系,涵盖图像领域的混元图像3.0、3D领域的混元3D 3.0、视频领域的HunyuanVideo以及世界模型HunyunWorld-1.0 [56] - 积极布局开源生态,混元翻译模型Hunyuan-MT-7B和世界模型HunyuanWorld-Voyager曾在Hugging Face趋势榜前三占据两席 [56] - 广泛的业务矩阵(社交、内容生产、广告推荐、游戏)为技术落地提供丰富场景和数据支撑 [58]