量子位

搜索文档
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
量子位· 2025-06-17 15:41
CVPR 2025核心趋势 - 多模态与3D生成成为论文接收热门方向 其中高斯泼溅技术为前五高频关键词之一[6][15] - 基础模型讨论深入并延伸至产业落地 具身智能与机器人AI设立独立Workshop板块[6] - 计算机视觉与图形学加速融合 神经渲染推动3D论文数量显著增长[16][17] 中国企业参与表现 - 腾讯、字节等企业展区规模创纪录 技术Demo体验排队现象突出[3][5] - 腾讯40+篇论文被接收 覆盖混元大模型团队、优图实验室等多方向[32] - 蚂蚁、字节、快手分别有21篇、12篇(含4篇Highlight)、12篇论文入选[32] - 中国企业赞助商占比达6/41 腾讯与字节跻身白金赞助商行列[34] 技术突破与开源进展 - 腾讯Hunyuan 3D 2.1版本实现几何与纹理双重优化 达到开源3D模型SOTA水平[21] - 该模型为全链路开源工业级3D生成大模型 支持消费级显卡适配[23] - 多模态领域高频词包括扩散模型(175次)、大语言模型(129次)、文生图(48次)等[14] 产业应用与人才战略 - Workshop议题新增3D捕获重建、数字孪生等方向 聚焦真实世界建模需求[28] - 腾讯研发投入超706亿元(2024年) 全球专利申请公开总数达8.5万件[44] - 腾讯科技类人才占比73% 青云计划提供无上限薪酬与顶尖科学家资源[51][52] - 企业通过顶会展示技术实力 形成商业反哺技术的良性循环[46][48]
不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B
量子位· 2025-06-17 15:41
GRA框架核心观点 - 无需依赖大模型蒸馏,通过多小模型协同机制(Generator-Reviewer-Adjudicator)即可生成高质量训练数据,实现"集体智能"路径 [1][13] - 实验证明GRA生成数据质量与Qwen-2.5-72B-Instruct等大模型输出相当或更高,在10个主流数据集中表现显著领先 [2][14] - 采用"模拟顶会审稿流程"机制,通过角色分工(生成/评审/仲裁)确保数据质量稳定性和标准统一性 [5][7][12] 框架运作机制 - **Generator**:划分数学/编程/逻辑推理等领域,小模型基于种子数据生成主题聚焦、语义清晰的样本 [8] - **Reviewer**:多小模型进行两轮审查,根据平均评分与一致性筛选样本,低分淘汰/分歧样本进入仲裁 [9] - **Adjudicator**:解决评审冲突,独立复审确保数据客观性,类似学术审稿中的Area Chair角色 [10] - **后处理模块**:通过语义去重、摘要补全与格式统一提升数据一致性与表达质量 [11] 实验验证结果 - **性能对比**: - Qwen-2.5-7B-GRA平均得分60.36,显著高于Alpaca(49.32)和Qwen-72B蒸馏版(53.03) [16] - LLaMA-3.1-8B-GRA平均提升6.18%,Qwen-2.5-7B-GRA平均提升11.81% [16] - Qwen-2.5-7B-GRA训练模型性能领先Qwen-72B蒸馏版8.83% [17] - **模型配置**:集成5个7-8B参数小模型(LLaMA-3.1-8B/Qwen-2.5-7B等) [14] 技术优势分析 - **数据多样性**:t-SNE显示GRA数据分布比种子数据广87.3%,覆盖更多语义盲区 [18] - **质量可靠性**:87.3%样本获Qwen-2.5-72B高分认可,评分分布更平滑细腻 [19] - **训练有效性**:IFD指标显示GRA数据难度比种子数据高14.58%,与Qwen-72B蒸馏数据相当(75.82% vs 75.49%) [20] 行业影响 - 打破大模型蒸馏依赖,提供低成本高性价比方案(7-8B小模型协同即可对标72B大模型) [17] - 揭示参数规模收益递减规律,验证"群体智慧"路径的扩展潜力 [17] - 开源项目推动行业应用(GitHub/Hugging Face资源已发布) [3][21]
AI操作有了“紧急刹车”!通义&自动化所AI决策诊断模型,GUI智能体纠错正确率SOTA
量子位· 2025-06-17 15:41
核心观点 - 阿里通义实验室联合中科院自动化所推出GUI-Critic-R1模型,旨在通过操作前反思机制提升GUI智能体的决策准确性,避免错误操作和不可逆损失[1][8][16] - 该模型在三个典型错误案例中成功纠正智能体行为:文件检索误判(Joplin应用)、冗余操作(费用删除流程)和重复指令(视频拍摄)[2][4][6] - 动态环境下单步错误会产生连锁反应,因此需要比离线任务更高的单步准确率(理论提升14-52%)[8][35][36] 技术架构 数据采集 - 构建6k条链式思维注释的GUI-Critic-Train数据集,采用推理引导策略确保质量[16][22] - 数据生成分两阶段:先采集GUI操作原始数据(含正确决策),再通过开源MLLM生成错误样本并由GPT-4o清洗[23] - 采用渐进式CoT范式生成反思数据,包含思考过程、评分和建议三要素[24] 模型训练 - 强化微调冷启动阶段从11K条人类注释中学习基础GUI操作知识[26][27] - 创新性提出建议感知的组内相对策略优化(S-GRPO),通过格式正确性(λ1=0.3)和建议反馈(λ2=0.7)的加权函数提升泛化能力[28][30] - 训练集包含移动端(85%)和网页端(15%)多场景数据,其中含CoT注释的数据占63%[31][33] 性能验证 静态测试 - 在GUI-Critic-Test三大场景超越主流模型:移动指令泛化(GUI-I)准确率69.2%(较Qwen2.5-VL-7B高14.32%)、移动场景泛化(GUI-S)58.77%、网页泛化(GUI-W)63.08%[35][36] - 建议准确率显著领先:GUI-I场景达52.43%(Claude-3.5为40.71%),跨应用程序场景保持47.37%准确率[36] 动态测试 - 在AndroidWorld基准测试中取得最高任务成功率,且平均操作步骤减少23%[38] - 网页端操作逻辑迁移验证成功,尽管存在滑动方向等交互差异,仍保持60.05%的跨平台准确率[34][36] 应用价值 - 可集成至现有MLLM系统(如GPT-4o)作为安全层,防止38-46%的典型GUI操作错误[1][36] - 支持移动端(Joplin/费用管理)和网页端(视频拍摄)的多模态任务,错误检测响应时间缩短至毫秒级[2][4][6][34]
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
量子位· 2025-06-17 15:41
核心观点 - 当前数学领域的数据生成方法局限于单个问题的改写或变换,缺乏对题目间内在关联性的挖掘 [1] - MathFusion通过指令融合增强大语言模型解决数学问题的能力,打破传统局限 [1] - 仅使用45K合成指令,MathFusion在多个基准测试中平均准确率提升18.0个百分点,展现卓越数据效率和性能 [2] 融合策略 - 顺序融合(Sequential Fusion):将两个问题串联,前一个问题的答案作为后一个问题的输入条件,模拟多步骤问题解决过程 [5] - 并列融合(Parallel Fusion):将两个相似问题融合,识别并融合数学概念后提出新问题 [6] - 条件融合(Conditional Fusion):创造需要对两个问题的解进行比较和选择的问题场景 [6] - 三种策略结合生成全新融合数据集MathFusionQA,通过embedding search识别适合融合的问题对并利用GPT-4o-mini生成解答 [6] 实验结果 - MathFusion在DeepSeekMath-7B、Mistral-7B、Llama3-8B等模型上实现稳定性能提升 [9] - 组合融合策略优于单一策略,在DeepSeekMath-7B上平均提升3.1分,Llama3-8B提升4.9分,Mistral-7B提升7.5分 [10] - 在out-of-domain基准测试中超越标准模型,展现强大泛化能力 [11] - MathFusion-DSMath-7B使用195K样本时,在MATH测试集准确率达58.2%,GSM8K达79.5%,College达40.3% [9] 数据特性与扩展性 - 融合后问题指令遵循难度(IFD)更高,模型性能随数据量呈对数增长 [13] - MathFusionQA与DART-Math数据集结合使用时性能可进一步提升,显示问题融合与挖掘难题思路互补 [13] - t-SNE可视化显示融合问题在特征空间分布更均匀广泛 [13] - 当前验证限于GSM8K、MATH等简单数学问题及short cot solution数据集,需扩展至更复杂领域 [12]
Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源
量子位· 2025-06-17 09:03
模型发布与性能表现 - Kimi团队发布开源代码模型Kimi-Dev 在SWE-bench Verified测试中以60.4%的成绩取得开源SOTA [1] - 模型参数量为72B 编程能力超越DeepSeek-R1 与闭源模型相比表现优异 [2] - 采用MIT协议 权重和代码已公开发布 抱抱脸平台上线网友制作的量化版本 [4] 技术架构与训练方法 - 核心设计为BugFixer和TestWriter双角色协同 遵循共同的最小框架包含两阶段流程 [6] - 基于Qwen 2.5-72B基础模型 使用1500亿高质量真实数据进行中期训练 数据源包括数百万GitHub issue和PR提交 [8] - 实施严格数据净化 确保训练数据不包含SWE-bench Verified内容 强化学习阶段专注提升代码编辑能力 [10] 强化学习关键创新 - 采用结果导向奖励机制 仅以Docker环境执行结果(成功1/失败0)作为评判标准 [11][12] - 设计高效提示集 过滤零成功率提示 结合渐进式难度提升策略 [13][14] - 引入正向示例强化 将已解决问题方案重新纳入训练批次巩固成功模式 [14] 测试机制与未来规划 - 测试时采用自我博弈机制 生成最多40个补丁候选和40个测试候选 观察到规模效应 [16] - 计划拓展复杂软件工程任务 深化与IDE/版本控制/CI-CD工具的集成 [18] - 项目资源已公开 包括GitHub仓库和HuggingFace模型页 [19]
性能比肩DeepSeek-R1,MiniMax仅花380万训出推理大模型性价比新王|开源
量子位· 2025-06-17 09:03
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 国产推理大模型又有重磅选手。 MiniMax开源 MiniMax-M1 ,迅速引起热议。 这个模型有多猛?直接上数据: MiniMax团队透露,只用了3周时间、512块H800 GPU就完成强化学习训练阶段,算力租用成本仅 53.47万美元 (约383.9万元)。 不仅如此,在多个基准测试上MiniMax-M1的表现可比或超越DeepSeek-R1、Qwen3等多个开源模型,在工具使用和部分软件工程等复杂任 务上甚至超越了OpenAI o3和Claude 4 Opus。 MiniMax-M1实战表现如何?官方给出了一句话生成迷宫小游戏的Demo。 创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫,并逐步可视化 A* 算法的求解过程。使用画布和动画,使其具有视觉吸引 力。 目前模型权重已可在HuggingFace下载,技术报告同步公开。 原生支持100万token的输入长度,是DeepSeek R1的约8倍。 同时支持8万输出token,超过Gemini 2.5 Pro的6.4万,成为 世界最长输出 。 生成10万token时,推理算力只需要DeepSe ...
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 18:30
多模态数学推理的挑战与突破 传统方法的局限性 - 传统思维链推理方法在视觉与数学结合场景下表现不佳,易忽略视觉输入中的数学细节导致推理错误[2] - 现有视觉CoT方法存在三大瓶颈:粗粒度图像区域选择破坏数学元素关联性[4]、通用视觉编码器对数学图像感知力不足[5]、过度依赖外部工具导致高成本低通用性[6] MINT-CoT的创新设计 - 提出动态Interleave Token机制,通过计算隐藏层相似度实时选取最相关视觉token,实现文本与数学图像元素的细粒度融合[9] - 突破传统矩形区域限制,可灵活捕捉几何图形、坐标轴等结构化数学元素,支持任意形状视觉区域选择[9] - 采用轻量化架构设计,无需依赖外部工具即可完成端到端训练与推理[9] 数据与训练体系 - 构建5.4万条视觉交错推理样本数据集,通过四步流程实现token级图文对齐标注:网格划分→OCR文本映射→关键词提取→MLLM关联匹配[11] - 设计三阶段渐进训练策略:文本CoT微调→双损失监督的交错模态微调→强化学习优化视觉选择策略[13] 性能表现 - 在Qwen-VL-7B模型上应用MINT-CoT框架后,MathVista/GeoQA/MMStar三大基准分别提升32.59%/26.92%/23.2%[16] - 可视化结果显示模型能自主选择相关视觉token并与文本推理链动态交互,推理逻辑显著优于基线[15] 行业影响 - 该技术首次实现数学场景下视觉与思维链的深度融合,为结构化视觉推理建立新范式[17] - 方法论具备扩展性,未来可迁移至科学图表解析、工程图纸理解等专业领域[17]
Midjourney入局视频生成,图像模型V7不断更新,视觉卷王实锤了
量子位· 2025-06-16 18:30
Midjourney视频生成模型 - 视频生成效果展示包括跑步动作、人物和空间转换非常丝滑[2] - 挖蛋糕场景逼真,勺子上有倒影等细节[3] - 多人物动作和视角切换流畅[14] - 小猫动作和人手动作具有物理真实感[16] - 小狗滑滑板场景展示[18] - 小猫美甲精细,手部纹路和指纹细节突出[21] - 叠毯子场景中手部发力和褶皱表现真实,但毯子自动缩回存在不合理性[24] - 爬楼梯场景中花朵从右手飘到左手存在逻辑问题[27] - 视频生成模型在物理真实感、纹路细节、动作平滑度上表现优秀[26] - 缺乏音频功能,与Veo 3相比无法生成乐器声音[28][29][30] Midjourney图像模型V7更新 - 图像模型V7不断更新,支持语音生图功能[37] - 从3月开始呼吁用户参与图像评分以完善V7[38] - 4月发布V7 alpha版本,包含Relax和Turbo模式[39][40] - 手部纹理生成逼真[41] - 旗舰功能"草稿模式"可将提示栏改为对话模式,支持语音输入生成图像[44][45][47] - 草稿模式生成成本减半,渲染速度提升10倍[49] - 快速模式优化耗时从40秒降至18秒[50] - 图像生成速度整体提升40%,快速模式渲染时间从36秒减至22秒,Turbo模式从13秒减至9秒[51][52][53] 公司动态与市场反应 - 视频生成演示引发Reddit热议,点赞量达2.5k[5][6] - 用户评价视频效果"与现实无法区分"[9] - 公司会议展示视频生成功能,强调"动画化图片"作为差异化优势[33] - 动画风格是Midjourney的强项[34] - 定价策略考虑用户需求,展现诚意[35][36]
2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%
量子位· 2025-06-16 18:30
核心观点 - AI系统otto-SR在医学系统评价领域实现重大突破,仅用两天完成传统方法需12年的工作,效率提升显著[1][3][27] - otto-SR在灵敏度(96.7%)、特异度(93.9%)、数据提取准确率(93.1%)等关键指标上全面超越人类水平(81.7%/79.7%)[5][15][22] - 该系统发现人类遗漏的54篇关键研究,并将合格研究数量翻倍,显著提升临床决策质量[26][27][36] 技术实现 工作流程架构 - 基于GPT-4.1和o3-mini构建端到端自动化流程,涵盖文献筛选、数据提取至Meta分析全环节[7][9] - 采用RIS格式引用文献输入,Gemini 2.0 flash处理PDF转结构化Markdown[9] 筛选模块 - 筛选Agent在32357条引文测试中,摘要阶段灵敏度达96.6%(人类95.7%),全文阶段保持96.2%(人类骤降至63.3%)[13][15][16] - 通过优化提示策略整合综述目标与合格标准[11][12] 数据提取模块 - 提取Agent在495项研究对比中,93.1%准确率远超人类(79.7%)和Elicit(74.8%)[20][22] - 盲审小组在69.3%案例中支持AI结果,显著高于支持人类(28.1%)和Elicit(22.4%)的比例[22][23] 应用验证 Cochrane综述复现 - 对12篇综述146276条引文更新检索,识别64项新合格研究(含54篇人类遗漏项),错误纳入率仅0.07%[25][26] - Meta分析显示效应估计值与原始数据95%CI重叠,营养领域发现术前免疫增强可缩短住院时间1天[33][36] 效率革命 - 将16个月/10万美元的传统成本压缩至48小时,工作耗时从12人年降至2天[1][3][27] - 未来可能将数月工作缩短至分钟级,加速新疗法和大流行病响应[38] 行业影响 - 突破资金限制地区获取前沿医学的壁垒,重新定义系统评价黄金标准[39] - 技术路径展示LLM在科学研究的颠覆性潜力,可能引发医学研究范式变革[7][38]
4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗
量子位· 2025-06-16 14:59
Jan-nano模型表现 - 最新模型Jan-nano在智能体任务上超过671B的最新版DeepSeek-V3 0528 [1] - 在SimpleQA基准上获得80.7分 [1] - 目前取得最高分80.7%,下一个版本目标是85% [4] - 在正确的提示词下可以进行深度研究 [6] - 从搜索结果中有效获取相关信息 [6] - 针对MCP协议优化,可无缝集成各种MCP服务器调用工具 [6] Jan-nano技术细节 - 在Qwen3-4B上使用字节&清华开源的DAPO强化学习微调方法 [8] - 团队将很快发布详细的技术报告 [10] Menlo Research背景 - 专注于AI和机器人技术的开放研发实验室 [11] - 主要目标为构建机器人的"大脑" [11] - 创始人为Daniel Ong与Nicole Zhu [12] - Nicole Zhu在斯坦福读人机交互硕士期间休学创业,此前在谷歌做过高级工程师 [12] - 坚持用户拥有原则,产品都是开源的 [14] - 设计为离线运行或自托管 [14] Jan产品信息 - 核心产品是Jan,可以100%离线运行的开源AI助手应用 [16] - 定位为ChatGPT的替代品 [17] - 推出数月后在没有风险投资支持下超过百万次下载 [17] - 长远愿景是成为"自驱动计算机" [19] - 规划中的能力包括将用户指令转化为直接行动、跨应用程序工作、学习用户特定工作模式、自主完成重复性任务 [21] 其他动态 - 在新加坡Echelon展会上展出一款人形机器人 [20]