量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-06-17 15:41

CVPR 2025核心趋势 - 多模态与3D生成成为论文接收热门方向其中高斯泼溅技术为前五高频关键词之一[6][15] - 基础模型讨论深入并延伸至产业落地具身智能与机器人AI设立独立Workshop板块[6] - 计算机视觉与图形学加速融合神经渲染推动3D论文数量显著增长[16][17] 中国企业参与表现 - 腾讯、字节等企业展区规模创纪录技术Demo体验排队现象突出[3][5] - 腾讯40+篇论文被接收覆盖混元大模型团队、优图实验室等多方向[32] - 蚂蚁、字节、快手分别有21篇、12篇(含4篇Highlight)、12篇论文入选[32] - 中国企业赞助商占比达6/41 腾讯与字节跻身白金赞助商行列[34] 技术突破与开源进展 - 腾讯Hunyuan 3D 2.1版本实现几何与纹理双重优化达到开源3D模型SOTA水平[21] - 该模型为全链路开源工业级3D生成大模型支持消费级显卡适配[23] - 多模态领域高频词包括扩散模型(175次)、大语言模型(129次)、文生图(48次)等[14] 产业应用与人才战略 - Workshop议题新增3D捕获重建、数字孪生等方向聚焦真实世界建模需求[28] - 腾讯研发投入超706亿元(2024年) 全球专利申请公开总数达8.5万件[44] - 腾讯科技类人才占比73% 青云计划提供无上限薪酬与顶尖科学家资源[51][52] - 企业通过顶会展示技术实力形成商业反哺技术的良性循环[46][48]

不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

量子位· 2025-06-17 15:41

GRA框架核心观点 - 无需依赖大模型蒸馏，通过多小模型协同机制（Generator-Reviewer-Adjudicator）即可生成高质量训练数据，实现"集体智能"路径 [1][13] - 实验证明GRA生成数据质量与Qwen-2.5-72B-Instruct等大模型输出相当或更高，在10个主流数据集中表现显著领先 [2][14] - 采用"模拟顶会审稿流程"机制，通过角色分工（生成/评审/仲裁）确保数据质量稳定性和标准统一性 [5][7][12] 框架运作机制 - **Generator**：划分数学/编程/逻辑推理等领域，小模型基于种子数据生成主题聚焦、语义清晰的样本 [8] - **Reviewer**：多小模型进行两轮审查，根据平均评分与一致性筛选样本，低分淘汰/分歧样本进入仲裁 [9] - **Adjudicator**：解决评审冲突，独立复审确保数据客观性，类似学术审稿中的Area Chair角色 [10] - **后处理模块**：通过语义去重、摘要补全与格式统一提升数据一致性与表达质量 [11] 实验验证结果 - **性能对比**： - Qwen-2.5-7B-GRA平均得分60.36，显著高于Alpaca（49.32）和Qwen-72B蒸馏版（53.03） [16] - LLaMA-3.1-8B-GRA平均提升6.18%，Qwen-2.5-7B-GRA平均提升11.81% [16] - Qwen-2.5-7B-GRA训练模型性能领先Qwen-72B蒸馏版8.83% [17] - **模型配置**：集成5个7-8B参数小模型（LLaMA-3.1-8B/Qwen-2.5-7B等） [14] 技术优势分析 - **数据多样性**：t-SNE显示GRA数据分布比种子数据广87.3%，覆盖更多语义盲区 [18] - **质量可靠性**：87.3%样本获Qwen-2.5-72B高分认可，评分分布更平滑细腻 [19] - **训练有效性**：IFD指标显示GRA数据难度比种子数据高14.58%，与Qwen-72B蒸馏数据相当（75.82% vs 75.49%） [20] 行业影响 - 打破大模型蒸馏依赖，提供低成本高性价比方案（7-8B小模型协同即可对标72B大模型） [17] - 揭示参数规模收益递减规律，验证"群体智慧"路径的扩展潜力 [17] - 开源项目推动行业应用（GitHub/Hugging Face资源已发布） [3][21]

LLaMA-3.1-8B-Instruct

LLaMA-3.1-8B-Instruct

Qwen-2.5-7B-Instruct

AI操作有了“紧急刹车”！通义&自动化所AI决策诊断模型，GUI智能体纠错正确率SOTA

量子位· 2025-06-17 15:41

核心观点 - 阿里通义实验室联合中科院自动化所推出GUI-Critic-R1模型，旨在通过操作前反思机制提升GUI智能体的决策准确性，避免错误操作和不可逆损失[1][8][16] - 该模型在三个典型错误案例中成功纠正智能体行为：文件检索误判（Joplin应用）、冗余操作（费用删除流程）和重复指令（视频拍摄）[2][4][6] - 动态环境下单步错误会产生连锁反应，因此需要比离线任务更高的单步准确率（理论提升14-52%）[8][35][36] 技术架构数据采集 - 构建6k条链式思维注释的GUI-Critic-Train数据集，采用推理引导策略确保质量[16][22] - 数据生成分两阶段：先采集GUI操作原始数据（含正确决策），再通过开源MLLM生成错误样本并由GPT-4o清洗[23] - 采用渐进式CoT范式生成反思数据，包含思考过程、评分和建议三要素[24] 模型训练 - 强化微调冷启动阶段从11K条人类注释中学习基础GUI操作知识[26][27] - 创新性提出建议感知的组内相对策略优化（S-GRPO），通过格式正确性（λ1=0.3）和建议反馈（λ2=0.7）的加权函数提升泛化能力[28][30] - 训练集包含移动端（85%）和网页端（15%）多场景数据，其中含CoT注释的数据占63%[31][33] 性能验证静态测试 - 在GUI-Critic-Test三大场景超越主流模型：移动指令泛化（GUI-I）准确率69.2%（较Qwen2.5-VL-7B高14.32%）、移动场景泛化（GUI-S）58.77%、网页泛化（GUI-W）63.08%[35][36] - 建议准确率显著领先：GUI-I场景达52.43%（Claude-3.5为40.71%），跨应用程序场景保持47.37%准确率[36] 动态测试 - 在AndroidWorld基准测试中取得最高任务成功率，且平均操作步骤减少23%[38] - 网页端操作逻辑迁移验证成功，尽管存在滑动方向等交互差异，仍保持60.05%的跨平台准确率[34][36] 应用价值 - 可集成至现有MLLM系统（如GPT-4o）作为安全层，防止38-46%的典型GUI操作错误[1][36] - 支持移动端（Joplin/费用管理）和网页端（视频拍摄）的多模态任务，错误检测响应时间缩短至毫秒级[2][4][6][34]