量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-09-25 19:42

文章核心观点 - 苹果公司跨界发布了一款名为SimpleFold的蛋白质折叠AI模型，被戏称为"iFold" [1] - 该模型采用"化繁为简"的设计理念，使用通用Transformer架构和流匹配生成技术 [3][8] - 其3B参数版本在性能上追平了谷歌AlphaFold2，达到后者95%的水平，同时在MacBook Pro上即可高效运行 [2][14][16] 技术架构与创新 - 模型架构采用多层Transformer编码器作为核心骨干，仅通过自适应层归一化适配蛋白质序列特征 [10] - 核心创新在于引入流匹配生成技术，通过学习从随机噪声分布到蛋白质构象分布的光滑映射，实现一步式生成原子坐标 [11][12] - 模型设计没有花里胡哨的专属模块，完全基于通用AI框架解决问题 [2][8] 性能表现 - 在CAMEO22基准测试中，SimpleFold-3B性能达到AlphaFold2的95% [14] - 在CASP14高难度测试集上，超越了同类流匹配模型ESMFold [15] - 具体性能指标：在CAMEO22测试集上TM-score为0.837，GDT-TS为0.802；在CASP14测试集上TM-score为0.720，GDT-TS为0.639 [16] 效率优势 - 在搭载M2 Max芯片的MacBook Pro上，处理512残基序列的推理时间仅需两三分钟 [16] - 远超传统模型的小时级耗时，使得普通实验室也能用得起 [7][16] 训练数据与模型规模 - 训练阶段构建了包含900万条数据的混合数据集 [14] - 训练出了从100M到3B参数的多尺度模型 [14] 研究团队背景 - 第一作者Yuyang Wang拥有卡内基梅隆大学机器学习硕士和机械工程博士学位，曾在苹果担任AI/ML Resident [18] - 通讯作者Jiarui Lu本科毕业于清华大学，在卡内基梅隆大学取得机器学习硕士学位，2020年加入苹果公司 [21][22] - 通讯作者曾主导苹果开源成果ToolSandbox，一套关于大模型工具调用能力的Benchmark [23]

量子位· 2025-09-25 10:21

公司战略定位 - 公司的战略野心已超越仅作为剪辑工具，旨在成为一站式AI成片的创意伙伴[2] - 公司未来将全力投入的方向是“All in AI，All in One”，即全面押注人工智能并打造一体化平台[3][4] - 公司的终极目标是打造一站式AI视频编辑平台，所有视频剪辑相关需求均可在一个平台内处理[31] AI视频创作功能升级 - 公司对AI文字成片功能进行了系统性升级，通过深度整合豆包、DeepSeek模型，使文字转视频效率倍增且成片故事性、连贯性更强[10][12] - 新功能可在两三分钟内达成媲美专业博主花费数天才能完成的效果，极大提升创作效率[13] - 在素材方面，新增生图和生视频能力，覆盖写实感、动漫风等多种风格，并保留对原有素材库的匹配[15] - 配备一键AI粗剪功能，借助大语言模型的画面理解能力，输入想法和素材即可辅助完成初步处理[16] 专业剪辑与特效能力 - 新升级的视频运镜功能依托自研Dreamontage模型，可为图片和视频创造一镜到底的电影级效果，实现多帧画面灵活串联[18][19] - AI配音进入3.0时代，全新批量上线的音色解决了人机、机械感等常见问题，真实感大幅提升[20] - AI音乐推出改词翻唱功能，可保留原始音色和旋律，仅对歌词进行自定义修改[22] - 专业剪辑能力增强，新增多机位剪辑、复合片段嵌套、钢笔蒙版、文字蒙版、多时间线和智能搜索等功能[22] AI图像创作与生态扩展 - 基于Seedream 4.0模型的文生图能力，可实现封面、海报等内容的批量创意生成，将生图功能集合于一体，简化创作流程[24][25] - 推出全新AI智能成片应用“剪小映”，通过AI智能图像理解，可对用户手机相册素材自动生成故事化视频[27] - 画面处理支持文字/图像形变、二级/浮点调色、基础图形等功能；音频处理支持立体声、左右声、升降调等专业能力[23] 行业影响与发展方向 - 公司打破了传统AI工具功能零散、缺乏连贯性的核心困境，实现从单点功能到全链路服务的跨越[34] - 未来AI创作工具将朝三个方向发展：成为懂用户的共创伙伴、作为生态连接器实现全流程操作、作为创意催化剂形成用户专属创意库[35] - 公司的“AI+一站式”定位是对创作流程的重构，让创作者专注于灵感构思，繁琐操作则由工具承接[32] - 公司的实践核心是剥离创作过程中的冗余负担，让创作回归纯粹，将主导权交还给创作者的想象力[37][38]

你的最快安卓芯片发布了！全面为Agent铺路

量子位· 2025-09-25 10:21

文章核心观点 - 高通发布全球最快Windows PC处理器和移动SoC处理器旨在重塑终端芯片以支持智能体AI体验 [1][5] - 公司提出以智能体为核心的六大AI趋势理解预示个人计算体系将发生颠覆性变革 [2][6] - 新产品采用3nm制程和第三代Oryon架构在性能、能效和AI处理能力方面实现显著提升 [7][25][27] 产品发布概况 - 同时推出面向PC的骁龙X2 Elite系列和面向手机的第五代骁龙8至尊版移动平台 [5] - PC处理器专为超高端PC打造目标为轻松驾驭智能体AI体验和复杂数据处理任务 [1][15] - 移动平台支持真正的个性化智能体AI助手具备终端侧学习和多模态AI能力 [1] 技术架构创新 - 全系产品采用3nm制程工艺和第三代Oryon架构 [7][25] - PC处理器采用12个Prime核+6个Performance核组合 [7] - 移动平台采用2个Prime核心+6个Performance核心架构 [27] 性能提升数据 **PC处理器性能提升** - CPU能效功耗比提升31% 功耗降低43% [10] - 单核CPU峰值性能提升39% 多核提升50% [13] - GPU峰值性能提升2.3倍 NPU峰值性能提升78% [13] - Hexagon NPU提供80 TOPS算力性能提升37% [15] **移动平台性能提升** - 单核性能提升20% 多核性能提升17% 响应速度提升32% [27] - 游戏性能提升23% 光追性能提升25% [28] - GPU能效提升10% 性能提升38% [29] - NPU总体性能提升37% 每秒处理220 tokens [30] 能效比较优势 **PC处理器能效表现** - 相同功耗下较竞品性能提升75% [16] - 竞品需多消耗222%能量才能达到同等性能 [17] - 单核性能领先44% 竞品需多消耗144%能量 [20] - GPU相同功耗下快52% 竞品需多花92%能量 [22] **移动平台能效表现** - CPU功耗下降35% GPU功耗下降20% [33] - 整体功耗下降16% [33] - 游戏延迟降低50% [34] AI能力突破 - PC处理器NPU提供80 TOPS算力支持复杂AI任务处理 [15] - 移动平台支持INT2和FP8精度具备32K 2bit上下文窗口 [30] - 首创终端AI持续学习功能实现实时感知和多模态理解 [1][31] - ISP支持逐帧AI增强和上下文感知的自动对焦功能 [33] 产品上市计划 - 搭载骁龙X2 Elite系列的笔记本电脑预计2026年第一季度上市 [24] - 搭载第五代骁龙8至尊版的手机平台即将面市 [35] 行业趋势判断 - AI成为新的人机交互界面从智能手机转向智能体中心 [6] - 需要构建全新计算架构体系支持智能体发展 [6] - 模型混合化发展趋势明显边缘数据相关性增强 [6] - 6G技术将成为云边端之间的关键连接桥梁 [6]

华为手表耳机都上新了！价格比不了苹果，续航苹果比不了

量子位· 2025-09-25 09:06

产品发布概述 - 华为发布三款新品：HUAWEI WATCH GT 6系列手表、HUAWEI FreeClip 2耳夹耳机、华为Vision智慧屏 5 Pro [2] - 发布活动旨在重新定义穿戴音频体验，针对日常使用中的实际问题提供解决方案 [5] - 产品升级聚焦于提升实用性、佩戴舒适度和场景适应性，而非依赖营销噱头 [48] HUAWEI WATCH GT 6系列手表 - 产品包括GT6和GT6 Pro两款，起售价1488元 [6][8] - 电池容量较上代提升65%，46mm版本在轻度使用模式下续航最长可达21天 [10] - 搭载新一代向日葵定位系统，定位准确度比上代提升20% [15] - 新增骑行模拟功率功能，基于国内专业综合风洞实验室上千组模拟数据开发算法 [20][22] - 配备玄玑感知系统，可识别12种情绪并提供情绪调整建议 [24] - 健康监测功能包括心率、睡眠、压力监测，并新增房颤负荷统计功能 [26] HUAWEI FreeClip 2耳夹耳机 - 首发价1299元，单耳机重量仅5.1g，较前代实现结构瘦身 [32][34] - 采用全新自研第三代音频芯片和NPU AI处理器，算力达到上代10倍 [37] - 具备环境音感知能力，可自动根据周围场景调整音量 [38] - 整机续航38小时，单耳续航9小时，支持中文与20种语言互译 [41] - 支持离线查找功能，耳机和耳机盒均可定位，掉落时会响铃提示 [43] 华为Vision智慧屏 5 Pro - 起售价6499元，整机厚度仅49mm，较上一代瘦身23% [44][46] - 设计上消除背部鼓包，实现更轻薄的外观 [46] - 画质和音效保持旗舰水准 [45] 行业竞争策略 - 产品升级策略强调解决用户实际痛点，而非单纯追求技术参数 [48] - 在智能穿戴领域通过续航、精准定位和健康监测功能建立差异化优势 [12][17][26] - 在音频设备领域聚焦轻量化设计、智能场景适应性和防丢失功能 [34][38][43] - 智慧屏产品通过工业设计优化提升家居适配性 [46]

穿戴音频体验

消费电子

HUAWEI WATCH GT 6系列手表

HUAWEI FreeClip 2耳夹耳机

华为Vision智慧屏 5 Pro

穿戴音频体验

消费电子

HUAWEI WATCH GT 6系列手表

HUAWEI FreeClip 2耳夹耳机

华为Vision智慧屏 5 Pro

LeCun团队开源首个代码世界模型：能生成代码还能自测自修！传统编程模型一夜成古典

量子位· 2025-09-25 09:06

文章核心观点 - Meta FAIR推出了全球首个系统性引入世界模型的代码生成语言模型CWM，其核心创新在于让模型“懂得”代码如何执行，能够模拟代码运行过程中的状态变化，从而在代码生成、理解、调试和规划能力上实现显著提升，接近人类程序员的思考能力[1][2][3] 模型概述与核心创新 - CWM是一个参数量为320亿、上下文长度达131k token的密集语言模型，专为代码生成和推理打造[1] - 与现有模型不同，CWM不仅能生成和理解代码，更能模拟代码执行过程，预测变量状态变化与环境反馈，解决了现有大模型将代码视为静态文本、执行效果不稳定的痛点[2][9][10][11] - 模型首次在训练中引入“代码世界建模”概念，使理解维度从静态文本跃迁到动态执行[12][15][16] 模型关键能力 - **代码执行模拟**：可逐行模拟代码执行，预测每行代码对变量状态的影响，甚至提前判断潜在错误，为构建“神经调试器”提供可能[18][19][20][21] - **自我调试与修复**：能够在生成代码后自动构造测试用例，并在发现失败后尝试多种路径进行自我修复，模拟人类“写-测试-改-再测”的开发闭环[22][23][24] - **推理与规划能力**：面对复杂问题可进行多轮逻辑推理与步骤规划，再结合执行预测生成并验证代码[25] 模型架构与性能 - 采用64层decoder-only Transformer架构，参数量320亿，支持131k tokens的长上下文输入[26][27] - 注意力机制采用局部（窗口大小8192 tokens）与全局（最大上下文131072 tokens）交替，兼顾效率与覆盖[28][29] - 在多项基准测试中表现优异：SWE-bench Verified得分65.8%，领先所有同规模开源模型并接近GPT-4级别；LiveCodeBench v5得分68.6%；Math-500得分96.6%；Terminal-Bench得分26.3%，高于Gemini 2.5 Pro；Aider Polyglot多语言代码生成得分35.1%，与Qwen3-32B相近[4][31][33] 训练流程与数据 - 训练分为三个阶段：1) **预训练阶段**：使用8T tokens数据（代码占比约30%），上下文长度8k token[38][39][40]；2) **中期训练阶段**：引入5T tokens的世界建模数据，训练模型识别代码运行中的状态变化，并将上下文能力扩展到131k token[41][42][45]；3) **后训练阶段**：进行100B tokens的监督微调和172B tokens的多任务强化学习，任务覆盖真实软件工程、编程竞赛和数学推理[46][47] - 世界建模核心数据包括：Python执行轨迹数据（来自数千万函数调用与代码提交）、ForagerAgent数据（300万条在真实Docker环境中的交互轨迹）以及自然语言描述版本[43] - 训练使用FlashAttention-3、FSDP+TP并行策略及fp8低精度加速，并遵循前沿AI安全框架，评估表明其不会对网络安全、化学、生物等高敏感领域构成滥用风险[50][51][52] 当前限制与未来方向 - 当前CWM的世界建模数据仅支持Python语言，尚未覆盖C++、Java等其他主流语言或符号执行任务[53] - 研究团队表示未来将探索多语言扩展，以形成自动化编程助手的通用框架[54] - 模型主要面向代码理解与复杂推理研究，未进行RLHF对齐，因此不适合对话任务或作为Chatbot使用[55][56] - 模型明确定位为“研究用”，仅供非商业研究使用[57] 发布与开源情况 - Meta FAIR开源了CWM的模型代码、训练细节以及多个阶段的权重检查点，提供了预训练模型、SFT模型等不同检查点供研究人员使用[5][32] - 团队选择了模型、数据、训练复现的全面开放，旨在推动研究社区探讨“如果大模型能理解世界，它能成为更好的程序员吗”这一问题[58]

Meta Platforms(US:META)

代码世界建模

Artificial Intelligence

代码世界模型（CWM）

代码世界建模

Artificial Intelligence

代码世界模型（CWM）

AIME'25满分炸场！Qwen一波七连发，全家桶大更新

量子位· 2025-09-24 14:28

Qwen3-Max旗舰模型发布 - 新一代旗舰模型Qwen3-Max正式发布，参数量保持超万亿规模[3] - 国产大模型首次在AIME25和HMMT数学评测榜单获得满分100分[1] - 模型划分为思考版和指令版两个版本，思考版在数学评测中取得满分成绩[4][5] - 指令版在SWE-Bench评测中获得69.6分，位列全球第一梯队[6] - 指令版在Tau2 Bench测试中获得74.8分，超过Claude Opus4和DeepSeek V3.1[7] Qwen3-VL视觉理解模型 - 视觉理解模型Qwen3-VL重磅开源，属于多模态模型重要突破[12][13] - 指令版本在多项主流视觉感知评测中性能达到甚至超过Gemini 2.5 Pro[16] - 推理版本在众多多模态推理评测基准下取得SOTA表现[16] - 支持手绘网页转HTML/CSS代码生成，展示强大视觉理解能力[20] - 具备复杂目标检测能力，能够以JSON格式输出边界框坐标[23][24] - 支持复杂视频理解任务，展示全频覆盖的视频处理能力[27] 技术架构创新 - 采用MRoPE-Interleave技术，实现时间、高度、宽度交错分布，提升长视频理解能力[31] - 引入DeepStack技术，融合ViT多层特征，增强视觉细节捕捉和图文对齐[32] - 视频时序建模升级为文本时间戳对齐机制，改进事件定位和动作边界检测精度[32] - 支持原生动态分辨率设计，在结构设计上进行重要更新[29] Qwen3-Omni全模态模型 - Qwen3-Omni作为首个原生端到端全模态AI模型，统一文本、图像、音频和视频处理[33] - 在22个音视频基准测试中达到SOTA水平，展示全面多模态能力[33] - 衍生出Qwen3-LiveTranslate视听说全模态同传大模型，覆盖18种语言翻译[36] - Qwen3-LiveTranslate-Flash准确率超过Gemini-2.5-Flash、GPT-4o-Audio-Preview等竞品[37] - 具备视觉增强翻译能力，能根据上下文准确区分同音词含义[42] Qwen3-Coder编程模型升级 - Qwen3-Coder-Plus采用Qwen Code、Claude Code系统联合训练的组合拳策略[49] - 性能效果得到显著提升，在各项基准测试中分数均有增长[50] - 编程产品Qwen Code增加对多模态模型和sub-agent支持，可输入图像进行编程[52][53] - 实际测试展示强大的3D代码生成能力，可生成复杂三维结构[56] 下一代模型架构 - 新一代基础模型架构Qwen3-Next正式发布，模型总参数量约80B[68] - 仅激活3B参数情况下，性能可与Qwen3-235B媲美，计算效率大幅提升[68] - 与密集模型Qwen3-32B相比，训练成本降低超90%，长文本推理吞吐量提升超过10倍[69] 行业战略布局 - 公司在云栖大会期间发布、开源近十款模型，展示快速的技术迭代能力[58] - 明确提出实现AGI是确定性事件，终极目标是发展超级人工智能（ASI）[62] - 规划AI发展四阶段：智能涌现、自主行动、自我迭代、超级人工智能[63] - 认为大模型将是下一代操作系统，自然语言是未来的源代码，AI Cloud是下一代计算机[65] - 预测未来全球可能只有5-6个超级云计算平台[66]

Nano Banana首款官方应用，谷歌全新AI画板工具来了

量子位· 2025-09-24 13:40

产品发布与功能特点 - 谷歌发布由Banana支持的AI画板工具Mixboard 实现自然语言即时可视化创意想法 [1][2] - 工具支持自然语言编辑图板轻松调整或合并图像适用于创意点子与家居装饰设计 [4][5] - 可生成约15张相关图片响应文本提示并保持新增图片与原有内容颜色风格一致 [10][12] - 支持批量编辑图片与跨区块组合操作包括物体替换与风格迁移无需拖入编辑框 [14][16][17] - 单张图片编辑功能包括重新生成生成类似图消除背景复制与下载操作 [21] 应用场景与用户反馈 - 应用覆盖多场景：服装设计（花卉刺绣牛仔裤上身效果）活动策划（秋季派对氛围布置）宠物主题（万圣节宠物服装） [5][6][23] - 用户生成创意案例包括鸽子主题约会界面与儿童插图体现高真实度与多样化形态 [23][24][26] - 网友建议尝试除Banana外其他模型显示对工具扩展性关注 [8] 技术优势与行业定位 - 工具引入面板界面设计解决传统聊天框翻找图片痛点提升可视化操作效率 [28] - 谷歌定位该工具为视觉AI爆发式增长前关键布局旨在主导全创意工作流程 [29][30] - 目前产品已开放公测直接面向用户提供体验渠道 [30]

可灵2.5 Turbo太凶残：30%成本暴降+效果飞跃，生成体操动作可去参赛

量子位· 2025-09-24 13:40

产品升级 - 快手推出可灵2.5 Turbo视频生成模型实现文本生成视频和图生视频功能升级[14] - 新模型在文本响应、动态效果、风格保持和美学效果维度有显著提升[15] - 高品质模式（1080p）下生成5秒视频仅需25灵感值较2.1模型同档位成本降低近30%[16] 技术突破 - 模型能处理抽象文案并理解复杂因果关系和时间序列提示词[17][20] - 动态效果升级可模拟高速运动（如自行车追F1镜头）和大幅动作（如体育项目）[22][23][25] - 人物情感捕捉精细特写镜头无假人感和恐怖谷效应生成理想效果仅需1-2次尝试[26][29][31] 性能对比 - 相比年初模型四肢不分的问题 2.5 Turbo在体操动作中展现出力量感、滞空感和物理感知进步[4][6] - 在第三方评测中与Veo3-fast等模型对比效果获得认可[32][33] - 自发布以来累计迭代超30次生成超2亿视频和4亿图片[36] 市场表现 - 全球创作者超4500万每次更新后迅速抢占市场份额[36][37] - 4月底Kling-2.0-Master发布三周内占Poe平台21%视频生成请求全系列市场份额达30%[38] - 同期导致Runway份额从约60%大幅下降至20%[39] 发展历程 - 4月15日推出2.0版本首次展现多模态编辑能力[41] - 5月29日发布2.1版本强化复杂指令理解[41] - 9月23日推出2.5 Turbo版本实现性价比与效果双提升[41]

快手(HK:01024)

Artificial Intelligence

可灵2.5 Turbo

Artificial Intelligence

可灵2.5 Turbo

Vibe之下，AI之上：海淀创新生态的“社区”引力法则

量子位· 2025-09-24 11:32

2025 AI创造者嘉年华活动概况 - 活动于2025年9月17日至21日在北京海淀区中关村创业大街举办，为期五天四夜，包含40多个分会场、100余家共创单位、上百位特邀嘉宾，辐射影响数万人[4][11] - 活动设置主会场、分会场、市集、黑客松、人才角五大板块，采用开放共创模式，打破传统会议中心化逻辑，实现街头直面技术前沿、与创业者并肩思考、和投资人平等交流[5][15] - 活动以"Let's in Vibe"为口号，强调年轻化、社区化、跨界融合三大特征，通过沉浸式城市级实验激发社会参与度与创新张力[8][15][16] 海淀区AI产业生态优势 - 海淀区创造北京超四分之一GDP，聚集37所顶尖高校、96家国家级科研院所、92个全国重点实验室，已备案大模型105款，承载全国70%以上AI企业、80%以上AI全球顶尖学者[9][37] - 区域AI产业呈现全栈化发展，覆盖模型、算力、算法、硬件、系统、应用等多层级，并在AI+文旅、教育、金融、工业等垂直领域同步推进技术落地[35] - 海淀区构建"1+X+1"现代产业体系，以人工智能为头雁产业，推动生物医药、集成电路等战略性新兴产业集群发展，并布局具身智能、量子等未来产业新赛道[46][47] 活动内容与创新模式 - 主会场聚集金沙江创投朱啸虎、小红书、Hugging Face等机构负责人及阿里、百度、腾讯、美团技术负责人，探讨AI创业趋势、社区氛围、机器人未来等话题[17] - 分会场设置技术实验室、黑客松赛事、项目路演场、AI人才招聘角等模块，提供从项目孵化到资本对接的全流程支持，其中投海Demo Day联动10余场路演，东方富海、华映资本等机构现场参与[22][35][40] - 活动通过AGI Bar深夜Talk、AI科技集市等场景实现跨界融合，展示AI吉他、AI工作助理等toC端产品及企业toB端方案，形成"先参与、后沉淀"的人才引力场[20][21][38] 产业生态支撑体系 - 海淀区通过200亿规模中关村科学城成长基金体系、"投早投小投硬科技"资本机制及3600万㎡产业空间，为企业提供从孵化到成长的全周期支持[47] - 政策层面推出"Hidea青年人才卡""海英人才"专项计划，配套公租房保障、落户支持等措施，构建人才服务网络，强化"政产学研金服"融合机制[39][48] - 活动依托《海淀区支持创新创业服务平台发展若干措施》中"创新平台15条"，提供概念验证、资源整合等一体化服务，实现从技术策源到生态场域的系统化推进[32][51]

Artificial Intelligence

Vibe

Artificial Intelligence

AI吉他

AI工作助理

AI陪伴玩偶

Artificial Intelligence

Vibe

Artificial Intelligence

AI吉他

AI工作助理

AI陪伴玩偶

Nano Banana不及格，开源模型一分难求！上海AI Lab新基准直击文生图模型痛点

量子位· 2025-09-24 11:32

多学科文生图基准GenExam的发布 - 上海人工智能实验室、上海交大、清华大学、香港中文大学联合发布首个多学科文生图考试基准GenExam 旨在用"考试思维"重新定义文生图模型的能力边界 [2][4][8] - 基准覆盖10个一级学科包括数学、物理、化学、生物、计算机、地理、经济、音乐、历史、工程共1000道严选题目平均题目长度达74.8个单词 [4][8][11] - 与传统文生图基准不同 GenExam更注重"对不对"而非"美不美" 要求模型融合理解、推理和生成三大能力 [8][11][13] 评测体系设计 - 采用双维度评测体系：语义正确性（是否符合题意）和视觉合理性（卷面质量）其中视觉合理性包含拼写、逻辑一致性、可读性三个子项 [14][15] - 设置严格和宽松双评分标准：严格标准要求语义全对且视觉三项满分才算正确宽松标准采用加权平均（语义70% 拼写10% 逻辑10% 可读性10%） [15] - 使用GPT-5作为自动阅卷老师通过视觉问答方式逐项检查评分点平均每道题设有6.9个评分点 [11][14][15] 模型性能表现 - 顶级闭源模型表现不佳：GPT-4o严格评分下正确率仅12.1% 其他闭源模型如Seedream 4.0、Imagen-4-Ultra、Gemini-2.5-Flash-Image严格得分均不足10% [5][16][19] - 开源模型全军覆没：所有开源模型严格得分接近0% 表现最好的Qwen-Image严格得分仅0.3% 统一多模态模型（如BAGEL、Show-o2）表现不如专用文生图模型 [16][19] - 宽松评分下差距明显：闭源模型得分在50-60分区间开源模型得分在10-30分区间在语义正确性、拼写、逻辑一致性、可读性四个方面均存在显著差异 [16][17] 典型错误类型 - 知识缺失：如音乐题中画错半音圈的调号顺序 [24] - 推理不足：如几何题中算错函数交点坐标 [24] - 视觉疏漏：如拼写错误、标签错位（如将"-1,0"标在y轴上） [24] 行业意义与未来方向 - GenExam将图像生成转化为考试任务为文生图模型设立新目标：从"画得好看"走向"画得正确" [23] - 当前模型在专业场景存在核心短板未来需在知识整合、逻辑推理、精准生成上持续突破才能从通用图像生成工具升级为专业领域助手 [22][23] - 当模型能通过GenExam考试时才真正迈入"专家级AGI"水平目前这场考试才刚刚开始 [23][24]

Artificial General Intelligence (AGI)

Text-to-Image Generation

Artificial Intelligence

GenExam

GPT-Image-1

Gemini-2.5-Flash-Image

Artificial General Intelligence (AGI)

Text-to-Image Generation

Artificial Intelligence

GenExam

GPT-Image-1

Gemini-2.5-Flash-Image

Previous Next