量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-10-02 13:30

文章核心观点 - Sora2展现出超越视频生成的多模态能力，包括预测大语言模型输出、渲染HTML代码、理解物理现象和精准还原游戏细节，模糊了视频生成与交互式AI的边界 [6][13][26] 多模态交互能力 - Sora2能够模拟与ChatGPT的交互过程，生成包含问题提问和语音回答的完整视频，例如根据提示生成关于猫的俳句并配以机械女声回答 [4][5] - 该模型展现出理解并执行复杂指令的能力，其生成的俳句音节严丝合缝，体现了对语言结构的把握 [5] 代码渲染与浏览器模拟功能 - Sora2具备渲染HTML代码的能力，根据粘贴的HTML代码生成的视觉效果与真实浏览器渲染效果高度相似 [7][8][10][12] - 该功能表明模型可能超越了传统视频生成器的范畴，展现出类似浏览器的渲染能力 [13] 物理现象理解能力 - 在未明确提示的情况下，Sora2能够准确模拟玻璃折射的物理现象，如通过装满水的玻璃杯展现箭头图像的翻转效果 [14][15][16][18] - 这种对物理世界的深入理解能力获得了行业观察者的高度评价 [19] 游戏内容还原精度 - 根据《赛博朋克2077》支线任务的提示词，Sora2能够精准还原游戏中的关键要素，包括地图位置、生物群落、地形、车辆设计和帮派名称 [21][22][24] - 尽管在巨蜥坦克移动方式和帕纳姆位置两个细节上存在微小误差，但从海量信息中准确提取并整合支线任务要素的能力反映了模型较强的信息处理智能 [25]

Murati翁荔陈丹琦公司发布首个产品，让大模型微调门槛暴降，要重新发明一个OpenAI

量子位· 2025-10-02 11:26

产品发布与公司定位 - Thinking Machines Lab发布其首个产品Tinker，这是一个用于微调语言模型的灵活API，旨在使模型微调过程像修改Python代码一样简单[1][12] - 公司联合创始人翁荔指出，当前GPU价格昂贵且基础设施设置复杂，Tinker作为高质量研究工具旨在提高研究生产力，是解决该挑战的第一步[5] - 公司使命是让更多人能够研究前沿模型并根据自身需求进行定制，Tinker通过让研究人员控制算法和数据而无需管理基础设施来实现这一目标[13][14] 产品Tinker的技术特点与优势 - Tinker让研究者在微调过程中保留90%的控制权，主要涉及数据、损失函数和算法本身，同时自动处理基础设施、LLM的前向/后向传播及分布式训练等复杂问题[8] - 产品首批主要支持Qwen3和Llama3系列模型，从小模型切换到大模型仅需在Python代码中修改一个字符串[15] - Tinker的API提供`forward_backward`和`sample`等底层训练步骤，并自动处理调度、扩展和错误恢复，还使用LoRA技术让多个训练任务共享GPU以降低成本并支持更多实验并行运行[17][22] - 除了云托管服务，公司还开源了Tinker Cookbook库，提供各种现成的后训练方法实现[24] - 微软研究员发现Tinker未采用GRPO方法，而是使用经典的REINFORCE算法配合优势函数，且没有梯度裁剪，其梯度更新策略简化为：新参数 = 原参数 + 学习率 × 优势值 × 对数概率的梯度[27][28] 市场反馈与行业影响 - AI大神卡帕西评价该产品“很酷”，AI基础设施公司Anyscale的CEO等beta测试者认为Tinker在抽象化和可调性之间取得了卓越的平衡[8][30] - 普林斯顿、斯坦福、伯克利和Redwood Research等研究团队已使用Tinker取得成果[30] - 卡帕西指出，社区正在探索微调相比直接提示大模型的优势，早期迹象表明微调能有效缩小任务范围，特别是在训练样本数量大时，微调小模型处理特定任务可能优于构建复杂的少样本提示[31] - 随着AI应用向更大规模流水线发展，其中多个大模型协作，微调可能在更多环节比提示更优，Tinker的简易性有助于实验出最佳方案[32][33] 公司战略与行业动态 - 有消息称Thinking Machines Lab正尝试“重新发明一个OpenAI”，旨在重建OpenAI在规模变大、变得官僚主义之前的版本[10] - 创始人Murati表示，公司将是一家公开分享研究成果并给予研究人员更多自由的公司[11] - 与此同时，OpenAI正转向更类似Meta的社交方向，其ChatGPT应用代码中发现了“社交模式”相关功能，包括来自“其他用户”的推送通知、群聊模式以及设置头像和昵称的功能[36][37][38][39][41]

大模型微调

AI基础设施

Artificial Intelligence

Artificial Intelligence

Thinker

ChatGPT

Sora 2

英伟达一口气开源多项机器人技术，与迪士尼合作研发物理引擎也开源了

量子位· 2025-10-02 11:26

文章核心观点 - 英伟达在机器人学习大会（CoRL）上发布了多项开源技术，旨在系统性解决机器人研发中的关键难题 [1] - 此次发布覆盖了从物理引擎、基础模型、训练工作流到硬件基础设施的“全栈式”布局，重新定义机器人研发的游戏规则 [1][10] - 行业领先的机器人公司、制造商及顶尖高校已开始采用这些技术，加速机器人从实验室走向日常生活的进程 [3][9][10] Newton物理引擎 - 该引擎旨在解决机器人技能从仿真环境安全可靠迁移至现实世界的核心难题，全球超过25万机器人开发者面临此问题 [4] - 作为开源项目，基于英伟达的Warp和OpenUSD框架构建，采用GPU加速技术，能够仿真复杂动作如雪地行走和操控细腻物体 [4] - 苏黎世联邦理工学院、慕尼黑工业大学、北京大学等顶尖高校以及光轮智能、Style3D等公司已成为其早期用户 [4] Isaac GR00T N1.6基础模型 - 该开源模型通过集成Cosmos Reason视觉语言模型，赋予机器人接近人类的推理能力，能够将模糊指令转化为可执行的逐步计划 [5][6] - 模型使机器人能同时完成移动和物体操控动作，躯干和手臂活动自由度更大，甚至可推开较重的房门 [6] - Cosmos Reason模型在Hugging Face平台下载量已超过100万次，并在物理推理模型排行榜上位居榜首 [6] - AeiROBOT、Franka Robotics、LG Electronics等领先机器人制造商正在评估采用该系列模型 [7] 训练革新与数据生成 - 基于Omniverse的Isaac Lab 2.3开发者预览版新增了灵巧抓取工作流，采用“自动化课程体系”从简单到复杂逐步训练机器人 [8] - Boston Dynamics的Atlas机器人通过此工作流学习抓取技能，操控能力获得显著提升 [8] - 英伟达与光轮智能联合开发了Isaac Lab Arena，作为开源策略评估框架，支持大规模实验和标准化测试，无需从零构建系统 [8] - 公司提供了开源物理AI数据集，包含数千条合成及真实世界轨迹数据，目前下载量已突破480万次 [6] AI硬件基础设施 - GB200 NVL72机架式系统集成36个Grace CPU和72个Blackwell GPU，已被各大云服务提供商采用 [9] - RTX PRO服务器为机器人开发提供统一架构，RAI Institute已率先使用 [9] - 搭载Blackwell GPU的Jetson Thor能够支持机器人运行多个AI工作流，实现实时智能交互，Figure AI、银河通用等合作伙伴已开始采用 [9] - 在CoRL收录的论文中，近半数引用了英伟达的相关技术，卡内基梅隆大学、华盛顿大学等顶尖研究机构均在使用其GPU、仿真框架和CUDA加速库 [9]

机器人“狂踹不倒”视频刷屏！太空舱遍布城市街巷，银河通用这几手秀麻了

量子位· 2025-10-02 10:12

核心技术：Any2Track框架 - 银河通用推出的Any2Track是一个全新的通用动作追踪框架，能让机器人精确模仿各种人类复杂动作，并实时适应真实世界的干扰[2] - 该框架采用二阶段强化学习设计，兼顾精准的动作模仿与抗干扰能力，一举超越了ASAP、GMT等传统方法，实现了零样本sim2real[7][8] - 框架包含AnyTracker通用动作追踪模块和AnyAdapter在线适应模块，通过解耦学习过程实现了丰富的运动表现力和强大的动力学适应性[10][17][28] 技术实现细节 - AnyTracker模块通过标准化动作空间和动作聚类、专家到通用等方法，解决了高自由度人形机器人动作空间复杂、单次优化难以学习所有动作分布的瓶颈[14][15][16] - AnyAdapter模块利用历史交互数据学习环境动力学特征，通过动力学感知的世界模型预测和adapter架构微调，动态调整机器人行为，实现在线动力学适应性[18][20][26][27] - 训练中使用AMASS和LAFAN1运动数据集的组合作为训练数据，在特征提取时采用包含100个状态-动作对的窗口进行自回归预测[14][21][23] 性能测试结果 - 在动作追踪质量测试中，AnyTracker的成功率(SR)达到89.23%，明显优于OmniH2O(75.64%)和Exbody2(79.68%)等基线方法[30] - 在抗干扰测试中，Any2Track在所有条件下均超越基线方法，无干扰时SR为89.8%，地形变化时SR为83.2%，外力作用时SR为59.0%，物理属性变化时SR为80.6%[32] - 在宇树G1机器人实际部署测试中，Any2Track在复杂地形下的MPJPE指标为18.34，较PPO的37.21改善18.87；在负重场景下MPJPE为23.24，较PPO的37.52改善14.28[36] 商业应用与落地 - 银河通用已构建GraspVLA、TrackVLA、GroceryVLA等端到端具身大模型，在精准操作、导航等核心任务上实现泛化能力突破[38] - 公司通过"银河太空舱"将机器人技术推向商业场景，目前已在北京、上海、深圳、成都、杭州等全国多地部署，应用于零售、文旅等领域[44][48][49] - 在颐和园、中国网球公开赛、苏超联赛等场景中，银河太空舱已成功落地，为游客和赛事提供机器人服务[46][48][49] 公司技术战略 - 银河通用形成了从合成数据到多模态具身大模型训练的完整技术管线，采用"合成为主、真实为辅"的数据范式解决行业数据稀缺难题[52][54] - 公司通过打造真实场景训练平台，结合大规模合成数据与基座大模型，加速人形机器人在垂直场景的工作能力培养[55][57] - 采用"合成+真实、研发+场景"的双轮驱动战略，推动具身智能在工业、零售、文旅、医疗等多元场景的规模化落地[58]

字节Seed发布PXDesign：蛋白设计效率提升十倍，进入实用新阶段

量子位· 2025-10-01 11:03

核心观点 - 字节跳动Seed团队Protenix项目组提出新一代蛋白设计方法PXDesign，在生成效率与湿实验成功率方面达到领域领先水平[1][3] - PXDesign采用“生成+过滤”组合技术路线，其中基于Diffusion的PXDesign-d方案在生成质量、通量和结构多样性方面表现最佳[13][16] - 团队推出公开免费的在线设计服务PXDesign Server及标准化评估工具箱PXDesignBench，显著降低蛋白设计门槛并推动领域标准化发展[4][27][32] 技术突破与性能表现 - PXDesign在24小时内可生成数百个高质量候选蛋白，生成效率较业界主流方法提升约10倍[3] - 在多个靶点上实现20%-73%的湿实验成功率，相同靶点相较DeepMind的AlphaProteo提升2-6倍[3][10] - 针对VEGF-A、H1、TNF-α等高难度靶点，PXDesign-d效率较以往方法提升数倍甚至数百倍[16] 方法架构优势 - PXDesign-d采用复杂度为O(N²)的DiT网络结构，相比RFdiffusion的O(N³)模块可实现更大规模数据训练和更高生成效率[17] - 对比Hallucination路线（需多轮迭代调用结构预测模型），PXDesign-d无需反向传播优化，速度显著提升[18] - 过滤环节结合自研Protenix模型与AlphaFold 2，构建更稳定精准的筛选标准，Protenix-Mini模型将200步扩散过程简化为2步，效率提升数倍[22][24][25] 工具与服务创新 - PXDesign Server提供Preview模式（20-30分钟返回5-25个候选）和Extended模式（生成更多高质量候选），支持一站式binder设计[28][30][31] - PXDesignBench整合主流评估指标与流程，开源评估框架助力领域公平比较与方法迭代[32] - 免费网页服务突破计算开销限制，使高水平binder设计成为常规科研工具[4][20][29] 行业背景与意义 - 2024年诺贝尔化学奖授予蛋白结构预测与计算设计领域，凸显“反向设计”新蛋白的学术与产业价值[6][7] - AI蛋白设计有望替代传统高通量实验筛选（需数万候选分子），为癌症、感染等疾病带来全新疗法[8][9][12] - 科技巨头加速布局生物计算领域（如微软BioEmu、苹果SimpleFold），预示AI驱动生物制药行业成为新竞争高地[33][34]

全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

量子位· 2025-10-01 11:03

核心观点 - 蚂蚁通用人工智能中心与香港大学联合推出PromptCoT 2.0框架，在大模型发展的下半场押注“任务合成”方向 [1][5] - 任务合成被视为与强化学习并列的基石技术，旨在解决现实世界长尾复杂问题导致的数据稀缺问题，并为大模型训练提供高质量合成数据 [6][9] - 实验表明，PromptCoT 2.0通过“强起点、强反馈”的自博弈训练，使30B-A3B模型在数学代码推理任务上达到新的SOTA结果，与DeepSeek-R1-0528、OpenAI o3、Gemini 2.5 Pro等模型表现相当 [2] 技术框架与原理 - PromptCoT 2.0是PromptCoT框架的全面升级，引入基于期望最大化（EM）的优化过程，用EM循环取代人工设计，迭代优化推理链以指导提示构造 [15][23] - 框架将问题合成拆解为概念抽取、逻辑生成及问题生成模型训练三个步骤，使生成的问题更难且更具多样性 [13][15] - 在后训练阶段，除了SFT，还采用强化学习方法，模型可从合成问题出发，通过自我探索推理路径进行学习，对奖励信号要求较低，兼容PPO、GRPO、DPO等多种方法 [25] 性能表现与数据优势 - 在不依赖人工问题的情况下，PromptCoT 2.0大幅提升了弱模型的数学与代码推理能力，其训练的模型在AIME 2024、AIME 2025、HMMT Feb 25等数据集上表现优于依赖人工问题构建的数据集（如OpenMathReasoning、OpenCodeReasoning） [17] - 开源的4.77M合成数据展现出“更难”和“更具差异化”的特征：在零微调评测下表现为更低的即刻正确率（18.5%）和更高的平均推理token消耗（37,373.3个），说明题目更能挖掘模型推理上限 [19][20] - 数据分布分析表明，PromptCoT 2.0的数据点与现有开源题集形成独立分簇，补充了“困难+新颖”区域，为模型训练提供了额外的分布层增益 [21][22] 行业趋势与未来方向 - 行业正从Reasoners向Agents急速推进，任务合成被视为提供燃料，与作为引擎的强化学习共同构成未来大模型后训练范式的判断 [6][10] - 未来发展方向包括Agentic环境合成（造环境让模型学会规划操作）、多模态任务合成（纳入图像视频等信息）、自奖励和对局式自进化（结合EM内循环与博弈式外循环） [27][28][29] - 合成数据具备更强的可扩展性，未来有望取代人工数据成为推动大模型推理能力提升的核心动力 [9][18]

量子位· 2025-10-01 09:12

Python的市场主导地位 - Python在IEEE Spectrum 2025编程语言排行榜上再次获得最受欢迎编程语言称号 [2] - Python相对于第二名Java呈现出"一骑绝尘"的断崖式领先优势，且两者差距仍在不断扩大 [4][5] - Python实现了IEEE Spectrum排行榜的十连冠，并首次在综合排名、增长速度和就业导向三个板块同时问鼎第一，成为该榜单12年来首个三冠王 [6][7] Python的成功因素分析 - Python凭借简洁性优势逐渐替代Java成为高校主流教学语言 [9] - NumPy、SciPy、matplotlib、pandas等核心库的成熟使Python在科研、金融和数据分析领域确立领先地位 [10] - 强大的开源社区网络效应构建了Python的生态护城河，吸引了大量开发者贡献代码和解决方案 [11] - 人工智能发展进一步放大了Python优势，其丰富的训练数据使大模型在使用Python时表现更出色，吸引了更多AI用户选择Python [12][13] 其他编程语言格局变化 - JavaScript在综合排名中波动最大，从去年前三跌至第六位，其网页编写优势正受到Vibe Coding的冲击 [14][15][16] - SQL多年来作为最受雇主欢迎技能的宝座被Python攻破，但由于其作为企业数据库标准语言的垂直定位，与Python差距不大且仍是极具价值的就业技能 [17][18][19][21][22][23] AI对编程行业的影响 - 程序员社区文化显著衰落，Stack Overflow新增问题数量从2023年3月的8.7万个降至2024年3月的5.88万个，一年内下滑32.5%，到2024年12月同比下降达40% [24][25][26][27] - AI让程序员逐渐摆脱对编程细节的执着，包括语法细节、流程控制和函数等传统需要死磕的内容正越来越多交给AI处理 [30][31][32] - 编程语言多样性可能显著下降，主流通用语言将获得指数级增长形成"强者恒强"格局，而非主流语言因缺乏训练数据支持将被进一步边缘化 [34][36][37][38][39] 编程范式变革趋势 - 编程正在经历自20世纪50年代编译器问世以来最大变革，未来可能通过Prompt直接与编译器对话，跳过传统编码环节 [41][45][46] - 在没有源代码的未来，程序员角色将转向底层的架构设计与算法选择，这些核心能力依然至关重要 [48][49][50]

OpenAI突然发布Sora 2：好一个“AI版抖音”！

量子位· 2025-10-01 09:12

Sora 2模型核心能力升级 - 模型定位从Sora 1的“GPT-1时刻”跨越至“GPT-3.5时刻”，实现代际飞跃 [6] - 升级为音视频同步生成模型，生成的视频自带配音 [5] - 物理模拟能力显著增强，能更好地遵循物理定律，例如人物动作丝滑连贯，物体运动轨迹自然 [7][8][10] - 可控性更强，能处理涉及多个镜头的复杂提示词，并保持虚拟世界的逻辑一致性 [11] - 支持将现实世界元素注入视频，通过观察某人视频即可将该形象植入Sora生成的任何环境 [14] Sora iOS应用：AI短视频平台 - 应用定位为完全由AI生成视频的短视频平台，被类比为“AI版抖音” [1][2][35] - 用户可创作AI内容、对他人生成内容进行二次创作，并在可自定义信息流中发现视频 [15] - 核心功能“客串”允许用户经身份验证后，将自己或朋友的形象置入Sora生成的环境 [15][20] - 用户对个人肖像拥有端到端完全控制权，可决定谁可使用其形象，并随时撤销授权或删除相关视频 [24][38] - 应用率先在北美地区启动初始推送 [33] 实际生成效果与用户体验 - 生成视频画面逼真，水花飞溅、皮肤细节和神态处理达到电影级别，难以分辨真伪 [4][27] - 支持中文提示词，生成过程快速，约两分钟即可产出带配乐的视频 [22] - 可生成多种风格，包括吉卜力动漫风格、1960年代黑白新闻报道风格等 [12][28][29] - 当前普通版本存在画质较低的问题，但ChatGPT Pro用户可抢先体验更高质量的Sora 2 Pro模型 [23][31] 商业化与行业影响 - 官方计划后续发布Sora 2的API，为更广泛商用提供可能 [32] - 应用依托OpenAI现有大语言模型研发了全新类别的推荐算法，用户可通过自然语言调控信息流 [37] - 发布后与快手旗下可灵等现有AI视频应用形成直接竞争，引发效果对比 [42]

AI视频生成

Artificial Intelligence

Artificial Intelligence

Sora 2

Sora iOS APP

可灵

首次实现第一视角视频与人体动作同步生成！新框架攻克视角-动作对齐两大技术壁垒

量子位· 2025-10-01 09:12

技术突破与核心创新 - 首次实现第一视角视频与人体动作的联合生成，攻克了视角-动作对齐与因果耦合两大瓶颈[1][2] - 提出基于扩散模型的框架，通过三模态联合生成框架实现视角一致且因果连贯的生成效果[4][12] - 采用以头部为中心的动作表征，使头部姿态回归误差显著降低，为视角对齐奠定基础[19][26] - 借鉴控制论设计结构化掩码的交互机制，实现视频与动作之间的双向因果交互，避免帧级错位问题[20][21] - 采用异步扩散训练策略与三阶段训练范式，适配视频与动作的模态差异，平衡效率与生成质量[22][23][27] 模型性能与实验结果 - 在Nymeria数据集上测试，包含17万条5秒时长的文本-视频-动作三元组数据[32] - 在9项关键指标上全面超越基线模型VidMLD，其中视角对齐误差从1.28米降低至0.67米，改善幅度达48%[32][33] - 手部可见一致性指标HandScore从0.36提升至0.81，改善幅度达125%[32] - 视频质量指标I-FID从157.86改善至98.17，FVD从1547.28改善至1033.52[33] - 消融实验证明三大创新设计缺一不可，移除任一组件都会导致模型性能明显下降[34] 应用前景与行业影响 - 为可穿戴计算、增强现实及具身智能领域打开了新的落地入口[2][34] - 支持多种生成模式：根据文本生成视频和动作、根据动作和文本生成视频、根据文本和视频生成动作[28][29][30] - 生成的视频可通过3D高斯点渲染技术提升到三维场景中，实现从生成内容到三维场景的还原[5][24] - 该技术为交互式内容创作和智能体仿真提供了可直接落地的生成基座[34]

第一视角视频与人体动作同步生成

扩散模型

三模态联合生成框架

Artificial Intelligence

Artificial Intelligence

EgoTwin

可能是目前效果最好的开源生图模型，混元生图3.0来了

量子位· 2025-09-30 20:22

模型发布与核心定位 - 腾讯混元发布并开源原生多模态图像生成模型HunyuanImage 3.0，参数规模高达800亿，是目前参数量最大的开源生图模型[1] - 该模型是首个开源工业级原生多模态生图模型，将理解与生成一体化融合，效果对标业界头部闭源模型，堪称开源领域最强图像生成模型[1] - 模型支持多分辨率图像生成，具备强大的指令遵从、世界知识推理和文字渲染能力，出图具有极致的美学与艺术感[1] 模型能力与生成效果 - 模型继承了Hunyuan-A13B的世界知识，具备原生世界知识推理能力，例如能根据“解方程组5x+2y=26，2x-y=5，给出详细过程”的提示词解题并生成步骤图[4][5] - 能够驾驭复杂提示词，如“用一幅图介绍堆排序算法流程，用小黄脸的表情包可视化，表情越开心代表数值越大，并提供伪代码，手帐风格，小红书图片样式”[7] - 通过对文字渲染数据的定向补充和借助HunyuanOCR进行文字识别的能力提升，3.0版本实现了接近头部模型的文字渲染能力，便于海报、表情包制作等创意玩法[7] - 经过与设计师配合的后训练打磨，模型形成了自身的美学风格，能够进行四宫格图生成、漫画创作、不同材质模型设计及素描教程制作[11][14] 核心技术方案 - 新一代模型基于Hunyuan-A13B（总参数量800亿，激活参数量130亿），采用原生多模态、统一自回归框架，将文本理解、视觉理解与高保真图像生成深度融合[17] - 不同于将LLM仅作编码器的传统DiT路线，混元3.0以LLM为核心底座，天然继承强大的语言与推理能力，并在预训练阶段深度混合LLM数据、多模态理解与生成数据，形成“理解反哺生成、语言驱动视觉”的正反馈闭环[19] - 模型采用VAE+ViT的联合特征作为图像理解输入，在图像生成侧将Diffusion建模无缝嵌入LLM架构，实现文本和图像的灵活交互，覆盖从创作到编辑的完整链路[23] 关键技术创新 - 引入广义因果注意力，在保持文本token遵循因果型注意力的同时，对图像token赋予全局注意力能力，形成兼顾“语言因果推理”与“图像全局建模”的注意力矩阵[25][26] - 采用“图文交织”的训练范式提升长上下文理解与生成能力，训练序列可包含多个加噪图像，并通过专用attention mask确保训练与推理的一致性[28] - 将LLM中的一维位置编码扩展为二维位置编码，并保证完全兼容原来文本token的一维编码，以最大程度保持原始LLM的语言能力[30] 数据处理与训练策略 - 采用全面的三阶段过滤流程，从超过100亿张原始图像中筛选出近50亿张高质量、多样化图像，并补充了知识增强、文本相关等专业数据集[32] - 构建了中英双语、分层级的图像描述体系，并集成专门的OCR和命名实体识别代理来保证描述的真实性，还专门构建了推理数据集以激活模型的思维链能力[34] - 采用渐进式四阶段预训练，从256像素分辨率开始逐步提升至1024像素，并引入复杂交错图文数据及思维链数据，后续进行指令微调和多阶段后训练[36][37][38] 模型性能评估 - 模型采用机器指标和人工评测两种方式评估效果，其中SSAE指标构建了500道评测题目并按12个细分要点拆解，HunyuanImage 3.0在各细分要点上都媲美甚至超越业界领先模型[40][43] - 在人工评测GSB中，HunyuanImage 3.0相较于Seedream 4.0胜率为1.17%，相较于Nano Banana胜率为2.64%，相较于GPT-Image胜率为5.00%，相较于上一版本模型HunyuanImage 2.1胜率为14.10%[46] - 评测结果表明HunyuanImage 3.0是足以媲美业界领先闭源模型的开源模型[47]

腾讯控股(HK:00700)

文生图模型

人工智能

混元图像3.0（HunyuanImage 3.0）

文生图模型

人工智能

混元图像3.0（HunyuanImage 3.0）

Previous Next