腾讯混元
搜索文档
顶会直聘!大厂ICCV现场玩出新模式,还是鹅会玩
量子位· 2025-10-23 13:18
文章核心观点 - AI行业人才竞争加剧,大厂通过顶级学术会议直接招聘成为新趋势 [3][6] - 腾讯在ICCV 2025采取“顶会直聘”模式,将技术展示与人才招聘深度结合 [7][9][30] - 大模型时代,拥有前沿技术洞察力的人才被视为最关键的资源,是抢占未来技术竞争主动权的核心 [36][37][40] 腾讯ICCV参会策略 - 腾讯作为最高档赞助商,搭建了全场规模第二大的展台,进行重磅投入 [8][11][35] - 公司旗下核心AI业务全员出动,包括混元、微信、游戏、ARC、优图、腾讯广告等 [13] - 技术展示覆盖3D生成、视频生成、世界模型、数字人等前沿领域,共40多篇论文被大会接收 [13][21][25] 技术展示与交流 - 腾讯混元有9篇学术论文被接收,并进行了多场boothtalk分享,现场反响热烈 [13][16] - ARC Lab展示GenConstruction等成果,解决开放世界视频的深度序列生成等核心问题 [20] - 优图实验室有8篇论文入选,聚焦可变场景数字人生成技术 [21] - 公司多位技术专家频繁出现在各workshop和Oral环节,与参会者积极互动 [27][29] 人才招聘新方式 - 腾讯在展台安排多位核心业务负责人“坐班”,与参会学生直接交流技术细节和招聘机会 [7][29][30] - 交流内容具体深入,包括技术路线选择、方案优劣比较以及直接邀请投递简历 [7][8] - 线下交流有效打破信息壁垒,让海外留学生等人才更全面地了解公司业务和岗位 [33][34][35] - 原计划邀请20位同学交流,实际因人才质量高而发出了超过40份邀约 [36] 行业趋势与公司优势 - 国内大厂对AI研究投入持续加大,腾讯2025年上半年研发支出达391.6亿元人民币,一二季度同比增长分别为21%和17% [43] - 公司拥有丰富的亿级用户产品转化经验和多元业务场景构成的平台优势 [44][45] - 通过“青云计划”等顶级人才招聘计划,在待遇和资源上竞相押注 [46][47][48]
Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”
量子位· 2025-10-06 13:42
技术突破核心 - 字节与UCLA联合提出Self-Forcing++方法,实现分钟级长视频生成,最长可达4分15秒,相比行业主流5-10秒视频生成长度提升近50倍[1][2][28] - 该方法无需更换模型架构或重新收集长视频数据集,通过自回归生成技术抑制后期画质劣化,避免传统扩散模型因误差积累导致的画面崩坏问题[1][10][11] - 生成视频在视觉稳定性、动态程度等关键指标上大幅领先现有SOTA模型,如SkyReels、CausVid等,且全程保持高保真度与运动连贯性[5][24][27] 技术实现原理 - 采用反向噪声初始化技术,让学生模型生成100秒干净帧序列后重新注入噪声,扩展分布匹配蒸馏通过随机抽取5秒窗口计算KL散度来最小化师生模型差异[13] - 引入滚动KV缓存机制,在训练与推理阶段生成远超教师监督时长的序列,结合组相对策略优化(GRPO)以光流连续性为代理指标减少画面突变[14][17] - 使用Gemini-2.5-Pro作为评估工具,按过曝光、误差积累等维度评分(0-100分),替代传统VBench基准,更精准衡量长视频视觉稳定性[18] 性能对比数据 - 短时长(5秒)生成中,Self-Forcing++语义得分80.37、总得分83.11,接近Wan2.1的84.67,显示其未专门训练仍保持高质量[22][23] - 中长时长(50秒)生成时,视觉稳定性得分90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度为后者的1.6倍[24] - 极长时长(75-100秒)生成中,文本对齐得分26.04,动态程度54.12,较CausVid提升6.67%和56.4%,视觉稳定性达84.22,为Self-Forcing的2.6倍[25][26] 行业影响 - 当前主流AI视频模型(如Sora2、腾讯混元、谷歌Veo)均受限于5-10秒时长,长视频生成技术瓶颈被突破可能加速AI电影等应用落地[6][9] - 该方法在1.3B参数量下实现17 FPS吞吐量,与部分基准模型相当,显示其在计算效率与生成质量间的平衡潜力[25]
财经观察|经济引擎装上AI“新三件”:不是未来已来,而是正在发财
搜狐财经· 2025-09-30 20:58
文章核心观点 - 人工智能正从“未来技术”快速转化为驱动中国经济增长的核心引擎,其战略定位已提升至国家高度,目标是通过“AI+”行动提升全要素生产率并实现经济结构的深层转型 [4] - AI的经济价值通过“AI新三件”的布局组合拳体现:构建坚实的底层基础设施、催生新兴产业赛道、以及对传统产业进行深度改造 [4][22] - AI不再是锦上添花的工具,而是能够重塑业务核心流程、创造新增长曲线的生产力,正在中国多个万亿级市场中重塑效率与增长 [8][22][23] AI基础设施(“新基建”) - 人工智能的基础设施由云计算、大模型和算力构成,是AI时代的数字“新基建” [9] - 2024年中国人工智能核心产业规模已突破7000亿元人民币,连续多年保持20%以上的高速增长,是整体经济增长速度的四倍以上 [4] - 行业竞争焦点从单纯的计算速度转向效率与成本的精打细算,领先企业需自研通用基座模型并提供可私有化部署的行业模型 [9] - 腾讯云以整体视角建设基础设施,确保软硬件协同以发挥最大算力价值,其“混元+开源模型”多模型解决方案已在30多个行业落地 [9][10] AI催生的新兴产业 - AI的生成能力正在创造高增长性、高附加值和轻资产化的全新商业模式与产业赛道 [14] - 在3D打印行业,AI通过自动化复杂设计极大降低专业门槛,推动技术走向大规模应用临界点 [14][18] - 拓竹科技接入腾讯混元3D生成模型,用户可通过文字或图片输入快速生成高质量3D模型,模型几何分辨率达1024³级,纹理贴图分辨率达4K,预计每月产生超10万次模型调用 [18] - AI助力中国企业开拓全球市场,在文化出海、游戏开发等领域成为孵化新物种、开拓新市场的关键变量 [19] AI对传统产业的深度改造 - 在零售业,绝味食品的AI Agent销售组业绩是人工组的3倍多,使复杂的全国性营销活动无需数周策划即可执行 [1] - 在汽车制造业,广汽集团与腾讯合作将车联网量产部署时间缩短至3个月,并合作开发AI点餐系统整合智能出行与零售场景 [20][21] - 在物流领域,腾讯云为货拉拉构建的“货运无忧大模型”实现整体降本30%,为DHL引入大模型使客服消息匹配率提升至97%,机器人解决率达74% [12][21] - 在金融服务业,华兴银行的AI信贷尽调助手将授信报告撰写周期从7-10天压缩至1天,东吴人寿的智能理赔流程将人工工作量减少80%以上,理赔周期压缩至1-3天 [21] - 在医疗健康领域,北京协和医院利用AI大模型串联患者全周期管理,迈瑞医疗的重症大模型可在5秒内为ICU医生提供决策辅助 [22] 具体应用案例与效能提升 - 同程旅行的AI旅行规划服务DeepTrip,在腾讯云算力支持下将用户决策到预定成本从天级别降低到“1小时内”,用户活跃度提升3倍 [12] - 中国银行基于腾讯云平台构建的“分析师工作台”已服务近4000名分析师,产生3000多个AI模型,直接助力反欺诈等业务智能化 [12]
对话腾讯集团高级执行副总裁汤道生:AI基础设施投入巨大 算力倒逼探索“最优成本+规模化应用”路径
每日经济新闻· 2025-09-17 22:37
核心观点 - 企业增长的两大核心动力为向智能化要产业效率和向全球化要收入规模 [2] - AI目前仍处于投入期 公司需要巨大算力服务超10亿用户 需思考高效低成本规模化应用AI [2] - 智能体将成为AI时代主要应用载体 公司发布智能体战略全景图并开放开发平台等五大能力 [6] AI基础设施投入与收入影响 - AI应用推动推理需求暴涨和云基础设施升级 公司持续加码基础设施建设且海外开区速度在国内云厂商中最前列 [4] - 公司在AI基础设施投入非常大 提供从基础设施到模型训练推理加速工具再到应用场景的全方位支持 [4] - 大模型产业重心从训练转向推理已成行业共识 企业对大模型和智能体建设热情带来推理需求暴涨 [4] - AI基础设施拉动效应明显 大模型与智能体领域大量客户实践案例带动收入 基础设施相关收入增长更明显 [4] - 海外已设立11个区域办公室和9大全球技术支持中心 海外基础设施建设与当地合作伙伴合作以提供延展算力 [5] - 国内基础设施投入较大 规模随业务增长布局 将随AI推理需求增加继续加大国内基础设施能力补充 [5] - 已全面适配主流国产芯片 与多家国产芯片厂商合作适配不同场景需求 [5] 智能体战略与模型发展 - 针对不同群体提供不同智能体能力 中小企业需要更完善商业化支持产品 开发者需要开源工具快速上手 [6] - 过去一年密集发布30多个模型 重点方向是以更低部署推理成本实现更强性能加速产业落地 [6] - 智能体真正差异在于落地细节 企业打造智能体成本不高 可在业务流程中找优化环节借助AI降本增效 [6] - 模型厂商需投入巨额硬件和训练成本 商业模式尚不明晰 需构建健康可持续商业模式 [7] AI业务发展现状 - AI已成为公司新业务基因 用户每天向腾讯元宝提问量达年初一个月提问总量 [7] - To C的AI原生应用处于投入期 未深度考虑商业化 重心放在打磨产品和服务体验上 [7] - AI原生应用将聚焦用户体验提升和场景覆盖扩展 让用户更自然高效解决实际问题 [7] - 公司拥抱AI是全方位 每个业务都在拥抱AI 云与智慧产业事业群AI产品通过组织变革有更大发挥空间 [5]
对话汤道生:AI如何“再造”腾讯?
贝壳财经· 2025-09-17 15:21
AI战略定位 - AI已成为公司新业务基因 [2] - 公司以更聪明方式投入AI而非ALL IN [5] - AI处于投入期 需持续大力投入但注重效率与成本优化 [6] 技术研发进展 - 混元大模型过去一年密集发布30多个模型 [7] - 重点研究方向为降低部署推理成本同时提升性能 [7] - 全面适配国产主流芯片 参与回馈开源社区 [13][14] - 通过异构计算平台整合多类型芯片提供高性价比AI算力 [13] 业务应用成效 - 腾讯元宝DAU位列国内AI应用前三 [12] - 用户日提问量达年初月总量水平 [12] - IMA知识库文件数量突破1亿 [12] - QQ浏览器AI月活较4月增长17.8倍 [12] - AI助力广告、游戏等业务实现双位数增长 [12] 云业务战略调整 - 推行"减脂增肌"战略 裁减低质量收入和非核心业务 [9] - 聚焦自研产品包括云底座、数据库、大数据平台 [9] - 自研产品收入实现可喜且健康增长 [9] - 客户数字化需求在公有云和私有云持续递增 [9] 产品生态整合 - 元宝与视频号、公众号、微信等多产品线深度联动 [10][12] - 用户可通过@功能或添加好友方式接入元宝 [10][12] - 持续探索微信与元宝融合形态 进行灰度测试 [12]
腾讯研究院AI速递 20250916
腾讯研究院· 2025-09-16 00:01
生成式AI - Google Gemini凭借Nano Banana图像编辑功能登顶App Store免费榜 超越ChatGPT [1] - Gemini集成画布、Veo3视频生成、Storybook故事板及Deep Research等多功能 形成完整AI工具集 [1] - Google AI全家桶包括NotebookLM知识库 支持最多上传300个文件 Flow视频生成支持1080p高清 AI Mode搜索和Gemini CLI本地助手 [1] AI模型性能突破 - xAI发布Grok 4 Fast模型 生成速度达75 token/秒 比标准版快10倍 具有实时交互优势 [2] - 新模型在编程题和初中数学题任务中表现准确且快速 能在不到2秒内解决LeetCode题目 [2] - Grok 4 Fast在速度领先的同时存在准确性妥协 适合简单查询或工具使用场景 [2] 数字人技术进展 - 可灵AI推出新版数字人功能 支持最长60秒单次输出 1080P/48帧规格 提升面部识别和口型精度 [3] - 新功能支持提示词控制角色情绪和动作 能准确执行"看提词卡"等特定动作 [3] - 可灵数字人在720P标准下价格为0.12元/秒 约为Heygen同类产品三分之一 接近业内最低价 [3] AI绘画技术优化 - 腾讯混元通过Direct-Align和语义相对偏好优化(SRPO)技术改进扩散模型训练 [4] - Direct-Align在整个扩散轨迹上进行优化 避免传统方法只优化后期步骤造成的"奖励作弊"问题 [4] - SRPO训练的FLUX1.dev模型真实感和美学评分提高3倍以上 仅需32块H20训练10分钟 [4] AI在政府治理应用 - 阿尔巴尼亚任命名为Diella的AI系统为"部长" 全面负责公共采购项目 成为全球首例 [5] - Diella将评估招标和选聘人才 以实现"公共招标100%廉洁"目标 作为政府透明改革试金石 [5] - 该举措旨在解决公共招标腐败问题 推动数字政府转型 强调AI决策的客观公正性 [5] 企业战略调整 - xAI裁撤数据标注团队约500名员工 占该团队三分之一 受影响员工将获得薪资支付至11月底 [6] - 公司减少通用型AI导师 将专业AI导师团队规模扩大10倍 招聘STEM、金融、医学等领域人才 [7] - 裁员前xAI要求员工参加决定岗位去留的测试 测试内容涵盖多个专业领域 [7] 前沿技术突破 - 加州大学洛杉矶分校开发几乎不消耗电能的光学生成模型 研究成果发表于Nature [8] - 系统利用数字编码器生成静态噪声 通过空间光调制器将噪声转化为图像 [8] - 能生成手写数字、时尚商品、梵高风格艺术作品等图像 适用于VR、AR显示和可穿戴设备 [8] AI开发生态影响 - 95%开发者需额外时间修复AI生成代码 "氛围编程清理专家"成为新兴职业 年薪可达10万美元 [9] - 资深开发者表示AI编程缺乏系统性思维 容易引入安全漏洞 50%时间写需求 30-40%时间修复AI代码 [9] AI经济应用趋势 - Anthropic报告显示用户完整任务交给Claude的比例从27%增至39% [10] - AI使用与地区经济特点相关:华盛顿特区和犹他州人均使用最多 夏威夷侧重旅游规划 马萨诸塞用于科学研究 [10] - GDP越高地区AI使用率越高 企业用户自动化率达77% 远高于个人用户 [10]
腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%
量子位· 2025-09-15 11:59
技术突破 - 腾讯混元团队提出Direct-Align和SRPO两项创新方法 显著提升AI图像生成质量 人工评估真实感评分从8.2%提升至38.9% 美学评分从9.8%提升至40.5% [2][5][17] - Direct-Align通过预定义噪声先验实现任意时间步图像恢复 在仅5%去噪进度阶段即可恢复图像粗略结构 解决传统方法梯度爆炸问题 [9][10][11] - SRPO将奖励定义为文本条件信号 通过正负面提示词计算相对奖励差值 实现无需额外数据的在线偏好调整 [5][14][16] 性能表现 - SRPO在HPDv2基准测试中全面领先 自动评估指标Aesthetic Score达6.194 PickScore达23.040 显著优于ReFL DRaFT等方法 [17][18] - 仅需10分钟训练即在32块H20上收敛 训练效率远超DanceGRPO(480 GPU小时)和ReFL(16 GPU小时) [1][18][19] - 通过添加"Realistic photo"控制词 模型生成图像真实感提升3.7倍 美学质量提升3.1倍 [16] 技术优势 - 全扩散轨迹优化突破现有方法局限 避免仅在后25%时间步训练导致的奖励黑客问题(如HPSv2偏好红色调 PickScore偏好紫色图像) [8][13] - 控制词效果与训练集频率相关 高频词如"painting"效果最佳 低频词需组合使用 [16] - 相比DanceGRPO方法 SRPO在保持高美学质量的同时避免产生过度光泽感和边缘高光等不良伪影 [18] 行业影响 - 开发者评价SRPO为下一代RLHF(人类反馈强化学习)技术 展现其在对齐人类偏好方面的突破性潜力 [6] - 该方法在FLUX1.dev模型上实现突破 表现超越最新开源版本FLUX.1.Krea [19]
可灵VS即梦:初探“多模态”
钛媒体APP· 2025-09-11 13:33
AI视频生成平台技术路线 - 国内AI视频生成领域以可灵和即梦为主要平台 [1] - 文生图+图生视频路线具有更高可控性 而文生视频路线能提供更强动态感 [3] - 多数用户选择可控性优先的技术路径 [4] AI内容生成能力评估 - AI编剧能力表现突出 Gemini 2 5 Pro能生成专业级分镜头脚本 [7][8] - 文生图能力存在局限 腾讯混元模型部分生成结果不符合指令要求 [13][15] - 图生视频指令系统成熟 涵盖场景 动作 运镜 风格等专业要素 [9] 视频生成技术缺陷 - 指令遵循度不足 平台经常偏离用户输入的明确指令 [20][22] - 物理逻辑错误频发 包括穿模现象和不合理运动轨迹 [24][25][28] - 时间一致性差 5秒内视频主体可能出现显著变化 [32][34] 平台性能对比分析 - 可灵平台优势体现在物理模拟真实性和动态感表现 [36] - 可灵具备深度概念理解能力和艺术诠释能力 [36] - 可灵掌握复杂镜头语言 能完成推拉变焦等专业运镜 [37] - 即梦平台优势在于图像保真度和稳定性 [43][44] - 即梦对复杂构图指令执行更可靠 但物理真实感不足 [46][47] - 即梦镜头语言能力较弱 难以完成复杂电影运镜 [48] 行业技术瓶颈 - 视频时长限制显著 主流平台仅支持5-10秒视频生成 [52] - 保真度与创意性存在技术路线博弈 尚未实现兼顾 [50] - 长时长连贯视频生成仍是重大技术挑战 [53] 商业化成本结构 - 基础生成成本较高 即梦平台最低配置为1元/5秒视频 [59] - 可灵平台标准模式定价为2元/5秒视频 [59] - 高质量视频需要多次调试 实际使用成本持续增加 [60] - 本地部署和模型微调成本超出一般用户承受能力 [57]
信达国际港股晨报快-20250902
信达国际控股· 2025-09-02 10:06
市场回顾与展望 - 恒指受制26,000点阻力位,中美同意延长90天关税休战协议,关税战局势缓和 [2] - 美联储主席鲍威尔表示风险平衡转变可能需要调整政策立场,市场对9月降息预期升温 [2] - 内地经济较预期平稳,加推经济刺激方案意愿不大,企业盈利改善有限 [2] - 港股大市成交活跃达3,802亿元,北水净流入119亿元,恒指收报25,617点,单日升幅2.15% [5][6] - 欧洲股市向好,德股收高0.57%,英股及法股分别微升0.1%及0.05% [6] 宏观经济数据 - 标普中国8月制造业PMI升至50.5,创5个月新高,高于市场预期及上月的49.5 [7][8] - 内地8月百城二手住宅价格环比下跌0.76%,同比下跌7.34%;新建住宅价格环比结构性上升0.2% [8] - 香港7月零售额按年升1.8%至297亿元,逊于市场预期的2.5%升幅 [8] - 澳门8月博彩收入221.56亿澳门元,按年升12.2%,首8个月累计收入1,630.52亿澳门元,按年升7.2% [8][9] - 内地暑期档电影票房达119.66亿元人民币,观影人次3.21亿 [8] - 全国铁路暑运发送旅客9.43亿人次,按年增长4.7%,发送货物7.02亿吨,按年增长4.8% [8] 行业动态与板块焦点 - 手机零件板块受消费电子传统旺季推动,各大品牌密集发布新手机 [7] - 智能眼镜板块受关注,HTC、Meta等将于9月推出新品 [7] - 人型机械人板块受益于内地加快推动"人工智能+"应用 [7] - 电商平台竞争加剧,穆迪指对阿里巴巴、京东集团和美团的信用构成负面影响 [8] - 多晶硅现货价格上涨,协鑫科技表示8月及9月或录得盈利 [12] 企业消息与动态 - 京东集团向CECONOMY提出收购要约,以每股4.6欧元现金对价收购所有股份,接受期至11月10日 [4][10] - 比亚迪8月汽车销量37.36万辆,按年微增0.15%,其中纯电动乘用车销量增长34.4% [4][10] - 小米汽车8月交付量持续超过3万辆,新增18间门店,全国105城已有370间门店 [10] - 吉利汽车8月总销量25.02万部,按年增长38.04%,其中新能源车品牌极氪销量下跌2.16% [10] - 理想汽车8月交付新车约2.85万辆,历史累计交付量达139.71万辆 [10] - 蔚来8月交付31,305辆汽车,按年增长55.2%,今年至今交付16.65万辆 [10] - 山東黄金折让9%配股筹39亿元还债,配售价28.58元较市价折让8.98% [4][11] - 先聲藥業折让8%配股筹15.7亿元,90%资金用于研发开支 [5][11] - 新世界发展首8个月售逾1,500伙,套现210亿元 [12] 科技创新与研发 - 腾讯混元发布并开源新翻译模型Hunyuan-MT-7B,支持33个语种及5种民汉语言互译 [10] - 美团发布并开源LongCat-Flash-Chat,采用混合专家模型架构,总参数560B [10] - 快手上线AI内容标识,添加"AI生成"显式标识 [10] - 天齐锂业年产50吨硫化锂中试项目已实质落地并动工 [11] - 四环医药与深原质药联合成立AI研发公司,探索开发AI驱动的新型医美产品 [11]
AI生成图片,哪家强?
36氪· 2025-08-29 14:26
多模态文生图模型测评概述 - AI图片生成在工作和学习中显著提升效率 支持文生图的模型数量呈指数级增长[1] - 测评涵盖6个主流模型:腾讯混元、智谱CogView-4、通义千问、即梦、可灵和Gemini 2.5 Flash Image[3] - Gemini 2.5 Flash Image为Google发布产品 此前以nano-Banana名称在LMarena平台获得极高关注度[4][5] 基础美学与真实感测试 - 测试主题为"傍晚阳光下的少女" 要求超写实照片级输出[9] - 腾讯混元存在皮肤质感过于光滑问题[16] - 智谱CogView-4出现雀斑分布均匀化的人工痕迹[16] - 通义千问出现双手比例严重失真问题 被评价为"一眼AI"[16] - 即梦和可灵在该维度表现接近完美[16] - Gemini存在皮肤质感过于光滑问题 写实感不足[18] 想象力与创意测试 - 测试主题为"星云构成的雄狮" 要求呈现宇宙元素构成的生物形态[19] - 腾讯混元误生成宇宙材质雕像而非生命体[25] - 智谱CogView-4完全偏离概念 生成实体狮子[25] - 通义千问产生半实体半星云的混合效果[25] - 即梦生成科幻感十足但实体感过强的狮子[25] - 可灵成为本轮最佳 成功实现星云融合效果[25] - Gemini保持实体不透明但神韵细节表现良好[25] 指令理解与执行力测试 - 测试主题为"水果篮里的数学题" 要求精确呈现三个红苹果和两个黄香蕉[27] - 仅智谱CogView-4、通义千问和Gemini正确完成指令[39] - 即梦和可灵出现苹果数量错误[39] - 腾讯混元存在多重执行漏洞[39] - 测试表明AI将数字视为构图特征而非精确数量要求[39] 风格模仿与驾驭力测试 - 测试主题为"水墨风的机甲" 要求融合中国传统水墨画风格[40] - Gemini成功实现山水画风格 被评价为最符合要求[44] - 通义千问生成素描风格机甲 存在形似神不似问题[44] - 即梦产生数字绘画风格 类似游戏概念设计图[47] - 可灵生成风格割裂的日式机甲与水墨背景组合[47] - 腾讯混元和智谱CogView-4完全偏离主题 生成古代武士形象[47] 文化理解与概念表达测试 - 测试主题为"中秋佳节的汉服少女" 要求呈现中国传统文化元素[48] - Gemini和可灵获得高分 展现准确汉服理解及完整文化元素呈现[57] - 即梦和通义千问在氛围塑造成功但汉服结构模糊[57] - 智谱CogView-4采用动漫风格 历史文化还原度不足[57] - 腾讯混元存在服饰结构错误和文化混淆问题[57] 综合性能排名 - Gemini以44分总分位列第一[58] - 可灵以40分总分位列第二[58] - 即梦以39分总分位列第三[58] - 通义千问以38.5分位列第四[59] - 智谱CogView-4以33.5分位列第五[59] - 腾讯混元以28.5分位列末位[59] 技术原理分析 - AI作图基于概率分布而非逻辑推理 通过降噪过程从随机噪声生成图像[63][64] - 数字指令被处理为构图特征而非精确数量要求[64] - 概念冲突时无法同时满足矛盾的概率分布[64] - 输出质量高度依赖训练数据库的标签准确性和数据质量[64]