Workflow
量子位
icon
搜索文档
“iFold”,苹果AI新成果
量子位· 2025-09-25 19:42
文章核心观点 - 苹果公司跨界发布了一款名为SimpleFold的蛋白质折叠AI模型,被戏称为"iFold" [1] - 该模型采用"化繁为简"的设计理念,使用通用Transformer架构和流匹配生成技术 [3][8] - 其3B参数版本在性能上追平了谷歌AlphaFold2,达到后者95%的水平,同时在MacBook Pro上即可高效运行 [2][14][16] 技术架构与创新 - 模型架构采用多层Transformer编码器作为核心骨干,仅通过自适应层归一化适配蛋白质序列特征 [10] - 核心创新在于引入流匹配生成技术,通过学习从随机噪声分布到蛋白质构象分布的光滑映射,实现一步式生成原子坐标 [11][12] - 模型设计没有花里胡哨的专属模块,完全基于通用AI框架解决问题 [2][8] 性能表现 - 在CAMEO22基准测试中,SimpleFold-3B性能达到AlphaFold2的95% [14] - 在CASP14高难度测试集上,超越了同类流匹配模型ESMFold [15] - 具体性能指标:在CAMEO22测试集上TM-score为0.837,GDT-TS为0.802;在CASP14测试集上TM-score为0.720,GDT-TS为0.639 [16] 效率优势 - 在搭载M2 Max芯片的MacBook Pro上,处理512残基序列的推理时间仅需两三分钟 [16] - 远超传统模型的小时级耗时,使得普通实验室也能用得起 [7][16] 训练数据与模型规模 - 训练阶段构建了包含900万条数据的混合数据集 [14] - 训练出了从100M到3B参数的多尺度模型 [14] 研究团队背景 - 第一作者Yuyang Wang拥有卡内基梅隆大学机器学习硕士和机械工程博士学位,曾在苹果担任AI/ML Resident [18] - 通讯作者Jiarui Lu本科毕业于清华大学,在卡内基梅隆大学取得机器学习硕士学位,2020年加入苹果公司 [21][22] - 通讯作者曾主导苹果开源成果ToolSandbox,一套关于大模型工具调用能力的Benchmark [23]
不止剪辑!剪映的未来是一站式AI视频平台
量子位· 2025-09-25 10:21
公司战略定位 - 公司的战略野心已超越仅作为剪辑工具,旨在成为一站式AI成片的创意伙伴[2] - 公司未来将全力投入的方向是“All in AI,All in One”,即全面押注人工智能并打造一体化平台[3][4] - 公司的终极目标是打造一站式AI视频编辑平台,所有视频剪辑相关需求均可在一个平台内处理[31] AI视频创作功能升级 - 公司对AI文字成片功能进行了系统性升级,通过深度整合豆包、DeepSeek模型,使文字转视频效率倍增且成片故事性、连贯性更强[10][12] - 新功能可在两三分钟内达成媲美专业博主花费数天才能完成的效果,极大提升创作效率[13] - 在素材方面,新增生图和生视频能力,覆盖写实感、动漫风等多种风格,并保留对原有素材库的匹配[15] - 配备一键AI粗剪功能,借助大语言模型的画面理解能力,输入想法和素材即可辅助完成初步处理[16] 专业剪辑与特效能力 - 新升级的视频运镜功能依托自研Dreamontage模型,可为图片和视频创造一镜到底的电影级效果,实现多帧画面灵活串联[18][19] - AI配音进入3.0时代,全新批量上线的音色解决了人机、机械感等常见问题,真实感大幅提升[20] - AI音乐推出改词翻唱功能,可保留原始音色和旋律,仅对歌词进行自定义修改[22] - 专业剪辑能力增强,新增多机位剪辑、复合片段嵌套、钢笔蒙版、文字蒙版、多时间线和智能搜索等功能[22] AI图像创作与生态扩展 - 基于Seedream 4.0模型的文生图能力,可实现封面、海报等内容的批量创意生成,将生图功能集合于一体,简化创作流程[24][25] - 推出全新AI智能成片应用“剪小映”,通过AI智能图像理解,可对用户手机相册素材自动生成故事化视频[27] - 画面处理支持文字/图像形变、二级/浮点调色、基础图形等功能;音频处理支持立体声、左右声、升降调等专业能力[23] 行业影响与发展方向 - 公司打破了传统AI工具功能零散、缺乏连贯性的核心困境,实现从单点功能到全链路服务的跨越[34] - 未来AI创作工具将朝三个方向发展:成为懂用户的共创伙伴、作为生态连接器实现全流程操作、作为创意催化剂形成用户专属创意库[35] - 公司的“AI+一站式”定位是对创作流程的重构,让创作者专注于灵感构思,繁琐操作则由工具承接[32] - 公司的实践核心是剥离创作过程中的冗余负担,让创作回归纯粹,将主导权交还给创作者的想象力[37][38]
你的最快安卓芯片发布了!全面为Agent铺路
量子位· 2025-09-25 10:21
文章核心观点 - 高通发布全球最快Windows PC处理器和移动SoC处理器 旨在重塑终端芯片以支持智能体AI体验 [1][5] - 公司提出以智能体为核心的六大AI趋势理解 预示个人计算体系将发生颠覆性变革 [2][6] - 新产品采用3nm制程和第三代Oryon架构 在性能、能效和AI处理能力方面实现显著提升 [7][25][27] 产品发布概况 - 同时推出面向PC的骁龙X2 Elite系列和面向手机的第五代骁龙8至尊版移动平台 [5] - PC处理器专为超高端PC打造 目标为轻松驾驭智能体AI体验和复杂数据处理任务 [1][15] - 移动平台支持真正的个性化智能体AI助手 具备终端侧学习和多模态AI能力 [1] 技术架构创新 - 全系产品采用3nm制程工艺和第三代Oryon架构 [7][25] - PC处理器采用12个Prime核+6个Performance核组合 [7] - 移动平台采用2个Prime核心+6个Performance核心架构 [27] 性能提升数据 **PC处理器性能提升** - CPU能效功耗比提升31% 功耗降低43% [10] - 单核CPU峰值性能提升39% 多核提升50% [13] - GPU峰值性能提升2.3倍 NPU峰值性能提升78% [13] - Hexagon NPU提供80 TOPS算力 性能提升37% [15] **移动平台性能提升** - 单核性能提升20% 多核性能提升17% 响应速度提升32% [27] - 游戏性能提升23% 光追性能提升25% [28] - GPU能效提升10% 性能提升38% [29] - NPU总体性能提升37% 每秒处理220 tokens [30] 能效比较优势 **PC处理器能效表现** - 相同功耗下较竞品性能提升75% [16] - 竞品需多消耗222%能量才能达到同等性能 [17] - 单核性能领先44% 竞品需多消耗144%能量 [20] - GPU相同功耗下快52% 竞品需多花92%能量 [22] **移动平台能效表现** - CPU功耗下降35% GPU功耗下降20% [33] - 整体功耗下降16% [33] - 游戏延迟降低50% [34] AI能力突破 - PC处理器NPU提供80 TOPS算力 支持复杂AI任务处理 [15] - 移动平台支持INT2和FP8精度 具备32K 2bit上下文窗口 [30] - 首创终端AI持续学习功能 实现实时感知和多模态理解 [1][31] - ISP支持逐帧AI增强和上下文感知的自动对焦功能 [33] 产品上市计划 - 搭载骁龙X2 Elite系列的笔记本电脑预计2026年第一季度上市 [24] - 搭载第五代骁龙8至尊版的手机平台即将面市 [35] 行业趋势判断 - AI成为新的人机交互界面 从智能手机转向智能体中心 [6] - 需要构建全新计算架构体系支持智能体发展 [6] - 模型混合化发展趋势明显 边缘数据相关性增强 [6] - 6G技术将成为云边端之间的关键连接桥梁 [6]
华为手表耳机都上新了!价格比不了苹果,续航苹果比不了
量子位· 2025-09-25 09:06
产品发布概述 - 华为发布三款新品:HUAWEI WATCH GT 6系列手表、HUAWEI FreeClip 2耳夹耳机、华为Vision智慧屏 5 Pro [2] - 发布活动旨在重新定义穿戴音频体验,针对日常使用中的实际问题提供解决方案 [5] - 产品升级聚焦于提升实用性、佩戴舒适度和场景适应性,而非依赖营销噱头 [48] HUAWEI WATCH GT 6系列手表 - 产品包括GT6和GT6 Pro两款,起售价1488元 [6][8] - 电池容量较上代提升65%,46mm版本在轻度使用模式下续航最长可达21天 [10] - 搭载新一代向日葵定位系统,定位准确度比上代提升20% [15] - 新增骑行模拟功率功能,基于国内专业综合风洞实验室上千组模拟数据开发算法 [20][22] - 配备玄玑感知系统,可识别12种情绪并提供情绪调整建议 [24] - 健康监测功能包括心率、睡眠、压力监测,并新增房颤负荷统计功能 [26] HUAWEI FreeClip 2耳夹耳机 - 首发价1299元,单耳机重量仅5.1g,较前代实现结构瘦身 [32][34] - 采用全新自研第三代音频芯片和NPU AI处理器,算力达到上代10倍 [37] - 具备环境音感知能力,可自动根据周围场景调整音量 [38] - 整机续航38小时,单耳续航9小时,支持中文与20种语言互译 [41] - 支持离线查找功能,耳机和耳机盒均可定位,掉落时会响铃提示 [43] 华为Vision智慧屏 5 Pro - 起售价6499元,整机厚度仅49mm,较上一代瘦身23% [44][46] - 设计上消除背部鼓包,实现更轻薄的外观 [46] - 画质和音效保持旗舰水准 [45] 行业竞争策略 - 产品升级策略强调解决用户实际痛点,而非单纯追求技术参数 [48] - 在智能穿戴领域通过续航、精准定位和健康监测功能建立差异化优势 [12][17][26] - 在音频设备领域聚焦轻量化设计、智能场景适应性和防丢失功能 [34][38][43] - 智慧屏产品通过工业设计优化提升家居适配性 [46]
LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典
量子位· 2025-09-25 09:06
文章核心观点 - Meta FAIR推出了全球首个系统性引入世界模型的代码生成语言模型CWM,其核心创新在于让模型“懂得”代码如何执行,能够模拟代码运行过程中的状态变化,从而在代码生成、理解、调试和规划能力上实现显著提升,接近人类程序员的思考能力[1][2][3] 模型概述与核心创新 - CWM是一个参数量为320亿、上下文长度达131k token的密集语言模型,专为代码生成和推理打造[1] - 与现有模型不同,CWM不仅能生成和理解代码,更能模拟代码执行过程,预测变量状态变化与环境反馈,解决了现有大模型将代码视为静态文本、执行效果不稳定的痛点[2][9][10][11] - 模型首次在训练中引入“代码世界建模”概念,使理解维度从静态文本跃迁到动态执行[12][15][16] 模型关键能力 - **代码执行模拟**:可逐行模拟代码执行,预测每行代码对变量状态的影响,甚至提前判断潜在错误,为构建“神经调试器”提供可能[18][19][20][21] - **自我调试与修复**:能够在生成代码后自动构造测试用例,并在发现失败后尝试多种路径进行自我修复,模拟人类“写-测试-改-再测”的开发闭环[22][23][24] - **推理与规划能力**:面对复杂问题可进行多轮逻辑推理与步骤规划,再结合执行预测生成并验证代码[25] 模型架构与性能 - 采用64层decoder-only Transformer架构,参数量320亿,支持131k tokens的长上下文输入[26][27] - 注意力机制采用局部(窗口大小8192 tokens)与全局(最大上下文131072 tokens)交替,兼顾效率与覆盖[28][29] - 在多项基准测试中表现优异:SWE-bench Verified得分65.8%,领先所有同规模开源模型并接近GPT-4级别;LiveCodeBench v5得分68.6%;Math-500得分96.6%;Terminal-Bench得分26.3%,高于Gemini 2.5 Pro;Aider Polyglot多语言代码生成得分35.1%,与Qwen3-32B相近[4][31][33] 训练流程与数据 - 训练分为三个阶段:1) **预训练阶段**:使用8T tokens数据(代码占比约30%),上下文长度8k token[38][39][40];2) **中期训练阶段**:引入5T tokens的世界建模数据,训练模型识别代码运行中的状态变化,并将上下文能力扩展到131k token[41][42][45];3) **后训练阶段**:进行100B tokens的监督微调和172B tokens的多任务强化学习,任务覆盖真实软件工程、编程竞赛和数学推理[46][47] - 世界建模核心数据包括:Python执行轨迹数据(来自数千万函数调用与代码提交)、ForagerAgent数据(300万条在真实Docker环境中的交互轨迹)以及自然语言描述版本[43] - 训练使用FlashAttention-3、FSDP+TP并行策略及fp8低精度加速,并遵循前沿AI安全框架,评估表明其不会对网络安全、化学、生物等高敏感领域构成滥用风险[50][51][52] 当前限制与未来方向 - 当前CWM的世界建模数据仅支持Python语言,尚未覆盖C++、Java等其他主流语言或符号执行任务[53] - 研究团队表示未来将探索多语言扩展,以形成自动化编程助手的通用框架[54] - 模型主要面向代码理解与复杂推理研究,未进行RLHF对齐,因此不适合对话任务或作为Chatbot使用[55][56] - 模型明确定位为“研究用”,仅供非商业研究使用[57] 发布与开源情况 - Meta FAIR开源了CWM的模型代码、训练细节以及多个阶段的权重检查点,提供了预训练模型、SFT模型等不同检查点供研究人员使用[5][32] - 团队选择了模型、数据、训练复现的全面开放,旨在推动研究社区探讨“如果大模型能理解世界,它能成为更好的程序员吗”这一问题[58]
AIME'25满分炸场!Qwen一波七连发,全家桶大更新
量子位· 2025-09-24 14:28
Qwen3-Max旗舰模型发布 - 新一代旗舰模型Qwen3-Max正式发布,参数量保持超万亿规模[3] - 国产大模型首次在AIME25和HMMT数学评测榜单获得满分100分[1] - 模型划分为思考版和指令版两个版本,思考版在数学评测中取得满分成绩[4][5] - 指令版在SWE-Bench评测中获得69.6分,位列全球第一梯队[6] - 指令版在Tau2 Bench测试中获得74.8分,超过Claude Opus4和DeepSeek V3.1[7] Qwen3-VL视觉理解模型 - 视觉理解模型Qwen3-VL重磅开源,属于多模态模型重要突破[12][13] - 指令版本在多项主流视觉感知评测中性能达到甚至超过Gemini 2.5 Pro[16] - 推理版本在众多多模态推理评测基准下取得SOTA表现[16] - 支持手绘网页转HTML/CSS代码生成,展示强大视觉理解能力[20] - 具备复杂目标检测能力,能够以JSON格式输出边界框坐标[23][24] - 支持复杂视频理解任务,展示全频覆盖的视频处理能力[27] 技术架构创新 - 采用MRoPE-Interleave技术,实现时间、高度、宽度交错分布,提升长视频理解能力[31] - 引入DeepStack技术,融合ViT多层特征,增强视觉细节捕捉和图文对齐[32] - 视频时序建模升级为文本时间戳对齐机制,改进事件定位和动作边界检测精度[32] - 支持原生动态分辨率设计,在结构设计上进行重要更新[29] Qwen3-Omni全模态模型 - Qwen3-Omni作为首个原生端到端全模态AI模型,统一文本、图像、音频和视频处理[33] - 在22个音视频基准测试中达到SOTA水平,展示全面多模态能力[33] - 衍生出Qwen3-LiveTranslate视听说全模态同传大模型,覆盖18种语言翻译[36] - Qwen3-LiveTranslate-Flash准确率超过Gemini-2.5-Flash、GPT-4o-Audio-Preview等竞品[37] - 具备视觉增强翻译能力,能根据上下文准确区分同音词含义[42] Qwen3-Coder编程模型升级 - Qwen3-Coder-Plus采用Qwen Code、Claude Code系统联合训练的组合拳策略[49] - 性能效果得到显著提升,在各项基准测试中分数均有增长[50] - 编程产品Qwen Code增加对多模态模型和sub-agent支持,可输入图像进行编程[52][53] - 实际测试展示强大的3D代码生成能力,可生成复杂三维结构[56] 下一代模型架构 - 新一代基础模型架构Qwen3-Next正式发布,模型总参数量约80B[68] - 仅激活3B参数情况下,性能可与Qwen3-235B媲美,计算效率大幅提升[68] - 与密集模型Qwen3-32B相比,训练成本降低超90%,长文本推理吞吐量提升超过10倍[69] 行业战略布局 - 公司在云栖大会期间发布、开源近十款模型,展示快速的技术迭代能力[58] - 明确提出实现AGI是确定性事件,终极目标是发展超级人工智能(ASI)[62] - 规划AI发展四阶段:智能涌现、自主行动、自我迭代、超级人工智能[63] - 认为大模型将是下一代操作系统,自然语言是未来的源代码,AI Cloud是下一代计算机[65] - 预测未来全球可能只有5-6个超级云计算平台[66]
Nano Banana首款官方应用,谷歌全新AI画板工具来了
量子位· 2025-09-24 13:40
产品发布与功能特点 - 谷歌发布由Banana支持的AI画板工具Mixboard 实现自然语言即时可视化创意想法 [1][2] - 工具支持自然语言编辑图板 轻松调整或合并图像 适用于创意点子与家居装饰设计 [4][5] - 可生成约15张相关图片响应文本提示 并保持新增图片与原有内容颜色风格一致 [10][12] - 支持批量编辑图片与跨区块组合操作 包括物体替换与风格迁移 无需拖入编辑框 [14][16][17] - 单张图片编辑功能包括重新生成 生成类似图 消除背景 复制与下载操作 [21] 应用场景与用户反馈 - 应用覆盖多场景:服装设计(花卉刺绣牛仔裤上身效果) 活动策划(秋季派对氛围布置) 宠物主题(万圣节宠物服装) [5][6][23] - 用户生成创意案例包括鸽子主题约会界面与儿童插图 体现高真实度与多样化形态 [23][24][26] - 网友建议尝试除Banana外其他模型 显示对工具扩展性关注 [8] 技术优势与行业定位 - 工具引入面板界面设计 解决传统聊天框翻找图片痛点 提升可视化操作效率 [28] - 谷歌定位该工具为视觉AI爆发式增长前关键布局 旨在主导全创意工作流程 [29][30] - 目前产品已开放公测 直接面向用户提供体验渠道 [30]
可灵2.5 Turbo太凶残:30%成本暴降+效果飞跃,生成体操动作可去参赛
量子位· 2025-09-24 13:40
产品升级 - 快手推出可灵2.5 Turbo视频生成模型 实现文本生成视频和图生视频功能升级[14] - 新模型在文本响应、动态效果、风格保持和美学效果维度有显著提升[15] - 高品质模式(1080p)下生成5秒视频仅需25灵感值 较2.1模型同档位成本降低近30%[16] 技术突破 - 模型能处理抽象文案并理解复杂因果关系和时间序列提示词[17][20] - 动态效果升级 可模拟高速运动(如自行车追F1镜头)和大幅动作(如体育项目)[22][23][25] - 人物情感捕捉精细 特写镜头无假人感和恐怖谷效应 生成理想效果仅需1-2次尝试[26][29][31] 性能对比 - 相比年初模型四肢不分的问题 2.5 Turbo在体操动作中展现出力量感、滞空感和物理感知进步[4][6] - 在第三方评测中与Veo3-fast等模型对比 效果获得认可[32][33] - 自发布以来累计迭代超30次 生成超2亿视频和4亿图片[36] 市场表现 - 全球创作者超4500万 每次更新后迅速抢占市场份额[36][37] - 4月底Kling-2.0-Master发布三周内占Poe平台21%视频生成请求 全系列市场份额达30%[38] - 同期导致Runway份额从约60%大幅下降至20%[39] 发展历程 - 4月15日推出2.0版本首次展现多模态编辑能力[41] - 5月29日发布2.1版本强化复杂指令理解[41] - 9月23日推出2.5 Turbo版本实现性价比与效果双提升[41]
Vibe之下,AI之上:海淀创新生态的“社区”引力法则
量子位· 2025-09-24 11:32
2025 AI创造者嘉年华活动概况 - 活动于2025年9月17日至21日在北京海淀区中关村创业大街举办,为期五天四夜,包含40多个分会场、100余家共创单位、上百位特邀嘉宾,辐射影响数万人[4][11] - 活动设置主会场、分会场、市集、黑客松、人才角五大板块,采用开放共创模式,打破传统会议中心化逻辑,实现街头直面技术前沿、与创业者并肩思考、和投资人平等交流[5][15] - 活动以"Let's in Vibe"为口号,强调年轻化、社区化、跨界融合三大特征,通过沉浸式城市级实验激发社会参与度与创新张力[8][15][16] 海淀区AI产业生态优势 - 海淀区创造北京超四分之一GDP,聚集37所顶尖高校、96家国家级科研院所、92个全国重点实验室,已备案大模型105款,承载全国70%以上AI企业、80%以上AI全球顶尖学者[9][37] - 区域AI产业呈现全栈化发展,覆盖模型、算力、算法、硬件、系统、应用等多层级,并在AI+文旅、教育、金融、工业等垂直领域同步推进技术落地[35] - 海淀区构建"1+X+1"现代产业体系,以人工智能为头雁产业,推动生物医药、集成电路等战略性新兴产业集群发展,并布局具身智能、量子等未来产业新赛道[46][47] 活动内容与创新模式 - 主会场聚集金沙江创投朱啸虎、小红书、Hugging Face等机构负责人及阿里、百度、腾讯、美团技术负责人,探讨AI创业趋势、社区氛围、机器人未来等话题[17] - 分会场设置技术实验室、黑客松赛事、项目路演场、AI人才招聘角等模块,提供从项目孵化到资本对接的全流程支持,其中投海Demo Day联动10余场路演,东方富海、华映资本等机构现场参与[22][35][40] - 活动通过AGI Bar深夜Talk、AI科技集市等场景实现跨界融合,展示AI吉他、AI工作助理等toC端产品及企业toB端方案,形成"先参与、后沉淀"的人才引力场[20][21][38] 产业生态支撑体系 - 海淀区通过200亿规模中关村科学城成长基金体系、"投早投小投硬科技"资本机制及3600万㎡产业空间,为企业提供从孵化到成长的全周期支持[47] - 政策层面推出"Hidea青年人才卡""海英人才"专项计划,配套公租房保障、落户支持等措施,构建人才服务网络,强化"政产学研金服"融合机制[39][48] - 活动依托《海淀区支持创新创业服务平台发展若干措施》中"创新平台15条",提供概念验证、资源整合等一体化服务,实现从技术策源到生态场域的系统化推进[32][51]
Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点
量子位· 2025-09-24 11:32
多学科文生图基准GenExam的发布 - 上海人工智能实验室、上海交大、清华大学、香港中文大学联合发布首个多学科文生图考试基准GenExam 旨在用"考试思维"重新定义文生图模型的能力边界 [2][4][8] - 基准覆盖10个一级学科 包括数学、物理、化学、生物、计算机、地理、经济、音乐、历史、工程 共1000道严选题目 平均题目长度达74.8个单词 [4][8][11] - 与传统文生图基准不同 GenExam更注重"对不对"而非"美不美" 要求模型融合理解、推理和生成三大能力 [8][11][13] 评测体系设计 - 采用双维度评测体系:语义正确性(是否符合题意)和视觉合理性(卷面质量) 其中视觉合理性包含拼写、逻辑一致性、可读性三个子项 [14][15] - 设置严格和宽松双评分标准:严格标准要求语义全对且视觉三项满分才算正确 宽松标准采用加权平均(语义70% 拼写10% 逻辑10% 可读性10%) [15] - 使用GPT-5作为自动阅卷老师 通过视觉问答方式逐项检查评分点 平均每道题设有6.9个评分点 [11][14][15] 模型性能表现 - 顶级闭源模型表现不佳:GPT-4o严格评分下正确率仅12.1% 其他闭源模型如Seedream 4.0、Imagen-4-Ultra、Gemini-2.5-Flash-Image严格得分均不足10% [5][16][19] - 开源模型全军覆没:所有开源模型严格得分接近0% 表现最好的Qwen-Image严格得分仅0.3% 统一多模态模型(如BAGEL、Show-o2)表现不如专用文生图模型 [16][19] - 宽松评分下差距明显:闭源模型得分在50-60分区间 开源模型得分在10-30分区间 在语义正确性、拼写、逻辑一致性、可读性四个方面均存在显著差异 [16][17] 典型错误类型 - 知识缺失:如音乐题中画错半音圈的调号顺序 [24] - 推理不足:如几何题中算错函数交点坐标 [24] - 视觉疏漏:如拼写错误、标签错位(如将"-1,0"标在y轴上) [24] 行业意义与未来方向 - GenExam将图像生成转化为考试任务 为文生图模型设立新目标:从"画得好看"走向"画得正确" [23] - 当前模型在专业场景存在核心短板 未来需在知识整合、逻辑推理、精准生成上持续突破 才能从通用图像生成工具升级为专业领域助手 [22][23] - 当模型能通过GenExam考试时 才真正迈入"专家级AGI"水平 目前这场考试才刚刚开始 [23][24]