MixGRPO

搜索文档
产业观察:【AI产业跟踪】 Qwen开源4B端侧模型
国泰海通证券· 2025-08-13 17:42
AI行业动态 - 上海市计划到2027年实现20项核心技术突破,建设4个高质量孵化器,集聚100家行业骨干企业,推动100个创新应用场景落地,产业规模突破500亿元[9] - 2025世界机器人大会将有200余家企业参展,展出超过1500件机器人相关展品[10] AI应用资讯 - 百度智能云发布7款数字员工,招聘周期缩短40%,课程顾问效率提升40%[11] AI大模型资讯 - Qwen团队开源两款4B端侧模型,其中推理模型在AIME25测试中以4B参数量获得81.3分,超越Gemini 2.5 Pro与Claude 4 Opus[12] - 字节跳动数学推理模型Seed-Prover在MiniF2F数据集实现100%正确率,解决78.1%的历年IMO难题[14][15] - 小米开源声音理解大模型MiDashengLM-7B,在22个评测集刷新记录,推理首Token延迟仅为同类模型的1/4[16] - 腾讯混元开源MixGRPO框架,训练时间最高缩短71%[17] 科技前沿 - 全球首个人形机器人通用视觉感知系统Humanoid Occupancy发布,采用语义占用三维体素表征[18] - 类脑计算机"悟空"发布,脉冲神经元规模超过20亿,神经突触超千亿[19] - 全球首个高分辨率三维无线电地图数据集UrbanRadio3D发布,涵盖6座城市701个子区域,分辨率精细至1立方米[20]
产业观察:【AI产业跟踪】字节开源AI Agent Coze
国泰海通证券· 2025-08-04 23:13
AI行业动态 - 上智院等联合发布星河启智科学智能开放平台,具备六大核心能力,支持多学科众研和干湿实验闭环[7] - 燧原科技AI算力部署规模达七万卡,推理卡"燧原 S60"支撑互联网客户及智算中心需求[30] AI应用资讯 - 商汤发布悟能具身智能平台,日日新V6.5多模态推理大模型跨模态推理精度超Gemini 2.5 Pro,性价比提升5倍[8] - 华为发布异腾智算平台AI-Box,搭载异腾400I Pro芯片,支持多模态大模型本地运行,适配工业质检等场景[9] - 腾讯发布具身智能开放平台Tairos,提供多模态感知、规划等模型及云服务工具,与硬件厂商合作推动行业落地[10] AI大模型资讯 - 阶跃Step 3模型总参数321B,激活参数38B,推理效率达DeepSeek-R1的300%,2025年预计收入近10亿[11] - 字节开源AI Agent Coze,GitHub星标超6000,支持可视化开发和一键分享至主流平台[14] - 智谱发布GLM-4.5融合大模型,总参355B,激活参32B,API价格低且生成速度快,获全球开源模型第一[17][22] - 京东云开源企业级全栈智能体JoyAgent,支持多智能体协同与并行处理,已应用于零售采销等场景[18] 科技前沿 - 后摩智能发布存算一体端边AI芯片M50,物理算力160TOPS,典型功耗仅10W,支持多模态大模型本地推理[32] - 钛动科技发布全球营销Agent Navos,将传统营销周期从数月缩至几天,提升人力资源效率数十倍[28]
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
量子位· 2025-08-02 16:33
图像生成技术框架MixGRPO - 提出结合随机微分方程(SDE)和常微分方程(ODE)的混合采样框架MixGRPO,通过优化马尔可夫决策过程(MDP)提升训练效率[1][6][12] - 开发变体MixGRPO-Flash,在保持性能前提下将训练时间降低71%,相比基准方法DanceGRPO减少50%训练时间[2][47] - 采用滑动窗口策略动态调整SDE采样区间,窗口大小25、移动间隔25、步长2时达到最优性能[34][71][74][75] 技术性能指标 - 在HPS-v2.1、Pick Score、ImageReward和Unified Reward四项人类偏好评估中,MixGRPO分别取得0.367、0.237、1.629和3.418分,全面超越基准模型[3][60] - 单次迭代时间从DanceGRPO的291秒降至MixGRPO-Flash的83秒,函数调用次数从14次降至4次[3][60] - 使用二阶DPM-Solver++高阶求解器实现加速,图像生成质量与人类偏好保持高度一致[45][76] 训练优化方法 - 将去噪过程划分为SDE和ODE混合采样阶段,仅对SDE采样区间进行强化学习优化[16][20] - 采用指数衰减策略动态调整滑动窗口位置,初始移动间隔25,衰减因子0.95[36][37] - 通过3步梯度累积和混合精度训练(bf16/fp32)提升训练效率,批量大小1,学习率1e-5[56] 应用场景与数据集 - 基于HPDv2数据集103,700条提示词训练,测试集包含动画、概念艺术等四种风格的400条提示词[49][50] - 采用FLUX.1 Dev文本生成图像模型作为基础,在9,600条提示词上训练1个epoch即显现效果[51][50] - 生成图像在语义表达、美学效果及图文对齐度方面表现突出,可视化对比显示质量优势[64][65]