MixGRPO - 财报，业绩电话会，研报，新闻

MixGRPO

搜索文档

国泰海通证券· 2025-08-13 17:42

AI行业动态 - 上海市计划到2027年实现20项核心技术突破，建设4个高质量孵化器，集聚100家行业骨干企业，推动100个创新应用场景落地，产业规模突破500亿元[9] - 2025世界机器人大会将有200余家企业参展，展出超过1500件机器人相关展品[10] AI应用资讯 - 百度智能云发布7款数字员工，招聘周期缩短40%，课程顾问效率提升40%[11] AI大模型资讯 - Qwen团队开源两款4B端侧模型，其中推理模型在AIME25测试中以4B参数量获得81.3分，超越Gemini 2.5 Pro与Claude 4 Opus[12] - 字节跳动数学推理模型Seed-Prover在MiniF2F数据集实现100%正确率，解决78.1%的历年IMO难题[14][15] - 小米开源声音理解大模型MiDashengLM-7B，在22个评测集刷新记录，推理首Token延迟仅为同类模型的1/4[16] - 腾讯混元开源MixGRPO框架，训练时间最高缩短71%[17] 科技前沿 - 全球首个人形机器人通用视觉感知系统Humanoid Occupancy发布，采用语义占用三维体素表征[18] - 类脑计算机"悟空"发布，脉冲神经元规模超过20亿，神经突触超千亿[19] - 全球首个高分辨率三维无线电地图数据集UrbanRadio3D发布，涵盖6座城市701个子区域，分辨率精细至1立方米[20]

产业观察：【AI产业跟踪】字节开源AI Agent Coze

国泰海通证券· 2025-08-04 23:13

AI行业动态 - 上智院等联合发布星河启智科学智能开放平台，具备六大核心能力，支持多学科众研和干湿实验闭环[7] - 燧原科技AI算力部署规模达七万卡，推理卡"燧原 S60"支撑互联网客户及智算中心需求[30] AI应用资讯 - 商汤发布悟能具身智能平台，日日新V6.5多模态推理大模型跨模态推理精度超Gemini 2.5 Pro，性价比提升5倍[8] - 华为发布异腾智算平台AI-Box，搭载异腾400I Pro芯片，支持多模态大模型本地运行，适配工业质检等场景[9] - 腾讯发布具身智能开放平台Tairos，提供多模态感知、规划等模型及云服务工具，与硬件厂商合作推动行业落地[10] AI大模型资讯 - 阶跃Step 3模型总参数321B，激活参数38B，推理效率达DeepSeek-R1的300%，2025年预计收入近10亿[11] - 字节开源AI Agent Coze，GitHub星标超6000，支持可视化开发和一键分享至主流平台[14] - 智谱发布GLM-4.5融合大模型，总参355B，激活参32B，API价格低且生成速度快，获全球开源模型第一[17][22] - 京东云开源企业级全栈智能体JoyAgent，支持多智能体协同与并行处理，已应用于零售采销等场景[18] 科技前沿 - 后摩智能发布存算一体端边AI芯片M50，物理算力160TOPS，典型功耗仅10W，支持多模态大模型本地推理[32] - 钛动科技发布全球营销Agent Navos，将传统营销周期从数月缩至几天，提升人力资源效率数十倍[28]

训练时间减半，性能不降反升！腾讯混元开源图像生成高效强化方案MixGRPO

量子位· 2025-08-02 16:33

图像生成技术框架MixGRPO - 提出结合随机微分方程(SDE)和常微分方程(ODE)的混合采样框架MixGRPO，通过优化马尔可夫决策过程(MDP)提升训练效率[1][6][12] - 开发变体MixGRPO-Flash，在保持性能前提下将训练时间降低71%，相比基准方法DanceGRPO减少50%训练时间[2][47] - 采用滑动窗口策略动态调整SDE采样区间，窗口大小25、移动间隔25、步长2时达到最优性能[34][71][74][75] 技术性能指标 - 在HPS-v2.1、Pick Score、ImageReward和Unified Reward四项人类偏好评估中，MixGRPO分别取得0.367、0.237、1.629和3.418分，全面超越基准模型[3][60] - 单次迭代时间从DanceGRPO的291秒降至MixGRPO-Flash的83秒，函数调用次数从14次降至4次[3][60] - 使用二阶DPM-Solver++高阶求解器实现加速，图像生成质量与人类偏好保持高度一致[45][76] 训练优化方法 - 将去噪过程划分为SDE和ODE混合采样阶段，仅对SDE采样区间进行强化学习优化[16][20] - 采用指数衰减策略动态调整滑动窗口位置，初始移动间隔25，衰减因子0.95[36][37] - 通过3步梯度累积和混合精度训练(bf16/fp32)提升训练效率，批量大小1，学习率1e-5[56] 应用场景与数据集 - 基于HPDv2数据集103,700条提示词训练，测试集包含动画、概念艺术等四种风格的400条提示词[49][50] - 采用FLUX.1 Dev文本生成图像模型作为基础，在9,600条提示词上训练1个epoch即显现效果[51][50] - 生成图像在语义表达、美学效果及图文对齐度方面表现突出，可视化对比显示质量优势[64][65]

腾讯控股(HK:00700)

图像生成

基于人类反馈的强化学习（RLHF）

Software and Information Technology Services

Software and Information Technology Services

MixGRPO

MixGRPO-Flash