Workflow
量子位
icon
搜索文档
用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025
量子位· 2025-06-06 14:06
而对于这项任务,复旦大学、腾讯优图实验室等机构的研究人员设计了一种 基于扩散模型的少样本异常图像生成新模型DualAnoDiff 。 实验结果显示,DualAnoDiff相比之前的方法取得了新SOTA。 不仅生成的异常图像最接近原始数据集MVTec中的情形,而且实际用来训练检测模型的效果 (检测、定位、分类等下游任务) 都更佳。 DualAnoDiff团队 投稿 量子位 | 公众号 QbitAI AI模型用于工业异常检测,再次取得新SOTA! 相关论文已中稿计算机视觉顶会 CVPR 2025 。 通俗理解,工业界为了检测产品异常,往往需要更多真实的残次品数据来训练检测模型;为了解决数据稀缺问题,常规做法一般是让模型生成 各种逼真 "次品图",并标注"哪个地方坏了"。 那么,它是如何做到的呢? 双分支并行生成机制 目前,工业制造中的异常检测性能受到 异常数据稀缺性 的限制。 为克服这一挑战,研究人员已开始采用异常生成方法来扩充异常数据集。 然而,现有异常生成方法存在生成异常多样性有限、难以实现异常与原始图像无缝融合的问题,且生成的掩码通常与生成的异常区域不匹配。 对此,团队提出同步生成整体图像与对应异常部分的方 ...
AI眼镜沙龙|距离全民标配还有多远?
量子位· 2025-06-06 14:06
市场现状 - 2025年AI眼镜市场呈现火热态势 国内已有华为、雷鸟、ROKID、星纪魅族等十余家厂商发布产品 更多产品等待亮相 行业进入"百镜大战"阶段 [1] - AI眼镜以最贴近人体的硬件形态 成为AI硬件落地的重要创新场景 [1] 产品形态 - 当前AI眼镜主要分为三类产品形态:AI音频眼镜、AI拍摄眼镜以及AI+AR眼镜 [7] 产业链参与方 - 产业链覆盖云服务商、计算芯片厂商、大模型厂商及电商/零售渠道代表 [7] - 投资机构积极参与AI眼镜产业链布局 [7] 行业活动 - 计划于2025年6月下旬在北京举办AI眼镜专题沙龙 采用线下与线上同步直播形式 [2][4] - 沙龙将围绕行业代表主题分享与圆桌对话展开 聚焦四大核心议题 [2][5] 核心议题 - 探讨第一代AI眼镜面世后的市场表现总结 [5] - 分析打造爆款AI眼镜需要解决的关键挑战 [5] - 研判AI眼镜的杀手级应用方向 [5] - 研究实现全民标配需经历的发展阶段与待解决问题 [5] 参与机构 - 沙龙招募对象包括AI眼镜行业相关企业、研究机构技术专家 [6]
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
量子位· 2025-06-06 12:01
核心观点 - 通义实验室推出自主信息检索智能体WebDancer,具备多步推理与连续动作执行能力,解决复杂信息检索需求[1][2] - WebDancer通过创新的数据合成方法(CRAWLQA、E2HQA)和两阶段训练策略(监督微调+强化学习),显著提升智能体在开放网络环境中的适应性与泛化能力[5][6][12][13] - 实验结果显示WebDancer在GAIA、WebWalkerQA等基准测试中性能超越主流基线模型,最高达到61.1% Pass@3分数[17][18][19][20] 背景与挑战 - 传统搜索引擎难以满足深层次、多步骤信息获取需求,尤其在医学研究、商业决策等领域[3] - 构建智能体面临训练数据稀缺(现有数据集如2WIKI仅支持浅层问题)、复杂网页解析、多步决策等挑战[4][5] 数据构建创新 - **CRAWLQA**:模拟人类浏览行为爬取权威网站(arXiv、Wikipedia),生成多样化真实问答对[6] - **E2HQA**:采用"由简到难"策略构建多步推理问答,通过问题改写保持答案合法性[6] - 数据过滤采用规则剔除重复/冗余内容,确保逻辑性与多样性[9][10] 训练方法 - **监督微调(SFT)**:屏蔽Observation干扰,专注Thought-Action损失计算,提升鲁棒性[12] - **强化学习(RL)**:采用DAPO算法动态采样低利用率数据,优化奖励函数设计,降低训练成本[13][15] 实验结果 - **GAIA数据集**:WebDancer+QwQ-32B组合达到56.4% Level 1准确率,显著高于Qwen-2.5-32B(20.5%)[20] - **WebWalkerQA数据集**:中等难度任务中WebDancer表现最优(55.0% vs 基线35.0%)[20] - **BrowseComp数据集**:中文任务得分22.2,远超GPT-4o(6.2)[21][22] 未来方向 - 扩展工具集成(浏览器建模、Python沙盒)以支持更复杂任务[29] - 从短答案检索向开放域长文本写作任务延伸,提升生成能力[30] - 通过原生ReAct框架推动开源Agentic模型生态建设[30][31]
清华给电子显微镜加上Agent,DeepSeek V3全程调度,数天流程缩短至几分钟
量子位· 2025-06-06 12:01
AutoMat团队 投稿 量子位 | 公众号 QbitAI 它相当于一位精准的"地图翻译官",把原子级 STEM 图像自动转成标准 CIF 结构,并一步到位给出形成能等关键物性。 过去的人工流程被缩短到几分钟,真正打通了"显微成像 → 结构重建 → 性质预测"的断层。 此外,团队还专门构建了二维材料数据集 STEM2Mat‑Bench(450 余个样本)进行验证—选择二维材料是因为其单层结构减少多重散射与投 影歧义,更便于精确成像与评测。 AI Agent又解锁了一个领域! 清华大学牵头,与西北工业大学以及上海AI lab等机构推出了电镜领域的AI agent—— AutoMat 。 结果显示,AutoMat在重建精度与能量预测上全面超越现有多模态大模型与AtomAI等专用工具,首次让"看到原子"真正等同于"理解材料",为 材料发现和实验流程的自动化闭环开启了高速通道。 电镜领域的AI Agent 电子显微技术的快速发展已达到亚原子级的成像效果,但解析表征图像的原子结构仍然需要专家逐像素判读、手动建模,对应模板结构,这样 才能得到可供计算的晶体结构文件,这一过程往往耗时数小时甚至数天,还容易因噪声或元素重叠出 ...
Figure机器人分拣快递新视频曝光,网友:太像人类
量子位· 2025-06-06 12:01
核心观点 - Figure 02机器人通过端到端通用控制模型Helix实现高度自主化操作,在物流分拣和汽车制造领域展现出显著技术进步[12][34][35] - 公司采用垂直整合策略开发专用AI模型,与OpenAI分道扬镳后加速技术迭代,5个月内完成从Figure 01到02的硬件重构[44][46][47] - 已实现商业化落地,宝马成为首家客户,机器人可连续20小时执行高精度制造任务[23][48][50] 技术进展 - Helix模型突破传统VLA系统限制,单一模型即可处理数千种新物体操控,无需专用动作头或大量编程[38][40] - 机器人具备类人感知能力:精准识别条形码方向、判断特殊包裹类型、自主调整抓取策略[3][4][6][10] - 工业场景适应性验证:完成10小时/20小时连续轮班作业,动作误差率显著低于人工[23][25][33] 商业化进程 - 获得OpenAI/微软/英伟达等机构6.75亿美元投资,估值达26亿美元[41] - 与宝马建立深度合作,已优化X3车身车间作业流程并探索新应用场景[48][50] - 物流领域技术成熟度接近实用水平,分拣效率获公开视频验证[2][8][21] 公司背景 - 创始人Bret Adcock为连续创业者,曾创立电动飞机上市公司Archer Aviation[41] - 2022年5月成立后快速完成技术突破,2024年3月发布首款OpenAI加持产品[41][42] - 当前战略重心转向专用机器人AI开发,放弃通用大模型合作路线[45][46]
Gemini新版蝉联竞技场榜一,但刚发布就被越狱了
量子位· 2025-06-06 08:58
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌CEO劈柴哥还发了一张AI合成的狮子照片,配文一个"Gemini",暗示了新模型的实力。 没等来o3 Pro和GPT-5,隔壁谷歌的Gemini先更新了。 深夜,谷歌通过等多个账号同时官宣, Gemini 2.5 Pro再次推出新版本 (0605)。 新版本在代码、推理等任务上的表现更上一层楼, 在超难数据集"人类最后的考试"中以21.6%的成绩超过了o3 。 在大模型竞技场上,新版Gemini也超越了自己, Elo评分比上个月的版本提升了24分 。 | ഗ്ര Text | | | 1 7 hours ago | | --- | --- | --- | --- | | Rank (UB) ↑ | Model ↑↓ | Score 1J | Votes 1↓ | | 1 | G gemini-2.5-pro-preview-06-05 | 1470 | 4,701 | | 2 | G gemini-2.5-pro-preview-05-06 | 1446 | 10,386 | | 2 | இ o3-2025-04-16 | 1443 | 13,808 ...
12.1万高难度数学题让模型性能大涨,覆盖FIMO/Putnam等顶级赛事难度,腾讯上海交大出品
量子位· 2025-06-06 08:58
DeepTheorem团队 投稿 量子位 | 公众号 QbitAI 12.1万道IMO级难度数学"特训题",让AI学会像人类一样 推导数学证明 ! "特训"过后,模型定理证明性能大涨 ,7B模型性能比肩或超越现有的开源模型和Claude3.7等商业模型 。 "特训题"为 Deep Theore m ,是首个基于自然语言的数学定理证明框架与数据集,由腾讯AI Lab与上海交大团队联合推出。 团队表示,定理证明是数学前沿的重要组成部分,但当前大语言模型 (LLM) 在数学推理,特别是通过强化学习 (RL) 进行训练时,往往 需要可以自动验证的答案,导致大模型无法像数学家那样通过自然语言进行定理证明。 图(b)展示经过强化学习训练的DeepTheorem-7B模型性能,比肩或超越现有的开源模型和商业模型 (Gemini2.0-flash, Qwen2.5-72B- Instruct, Claude3.7 等 ) ,仅次于o1、o3以及Gemini2.5-pro强推理模型。 DeepTheorem-121K 1、规模与难度:专为"极限挑战"而生 DeepTheorem训练集的显著特点是其大规模与高难度。其包含121K ...
精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”
量子位· 2025-06-05 18:28
STA团队 投稿 量子位 | 公众号 QbitAI ACL 2025中选论文中,来自浙江大学与腾讯的联合团队提出了新思路: Steering Target Atoms (STA),尝试为大模型注入"行为定向 剂",助力对模型行为的精准调控,为构建既聪明又听话的AI打下基础。 该方法通过"原子级"粒度对大模型进行行为编辑干预,实现了更鲁棒、更安全的生成控制。 在Gemma和LLaMA系列模型上的实验表明,STA方法能够有效抑制越狱攻击带来的违规输出,同时不削弱模型在正常问题回答中的高质量智 能表现。 方法&实验结果 大模型行为控制的挑战与突破 在参数训练完成后,很多应用场景会需要在推理阶段调整模型的特定行为,例如让模型拒绝用户的恶意请求。 然而,模型的"安全防御"能力往往和它的"通用智能"能力紧密耦合:为了让模型学会拒绝有害输入,可能会不小心削弱它对正常问题的应对能 力。 如果你面前有两个AI助手:一个能力超强却总爱"离经叛道",另一个规规矩矩却经常"答非所问",你会怎么选? 这正是当前大模型控制面临的两难困境:要么模型聪明却难以约束,要么守规矩却缺乏实用性。但我们真正追求的,并不是在"聪明但难 控"与"听话但 ...
最新AI眼镜格局报告:百镜大战拉开序幕,阿里DeepSeek高通成幕后赢家
量子位· 2025-06-05 18:28
核心观点 - AI眼镜市场正处于快速成长期,产品从科技发烧友向大众用户扩展,但现货交付产品仍较少[1] - 大模型技术推动AI眼镜功能升级,使其具备语音交互、图像识别等能力[3] - 行业已进入"百镜大战"阶段,国内外十余款产品上市,更多产品即将发布[5] - 产品竞争力取决于设计、硬件、软件、模型和内容生态五大要素[19] 市场现状 - 当前AI眼镜主要作为手机功能补充,未来可能发展为集耳机、相机、显示设备于一体的智能穿戴方案[17] - 线上销量过万的产品包括AI音频眼镜、AI拍摄眼镜和AI+AR眼镜,其中拍摄类产品出货量领先[14][15] - 雷鸟创新与Rokid在XR公司中表现突出,具备多方面领先实力[32] 技术要素 - 主流底层大模型包括通义千问、DeepSeek、文心大模型等,增强语义理解和多模态交互能力[6] - 高通骁龙AR1芯片因成熟度高、AI算力强,被半数厂商采用[8][10] - 基础功能集中在AI语音交互与翻译,不同类型产品分化出不同升级功能[12] 产品趋势 - AI拍摄眼镜量产成熟,迭代重点在设计和续航[23] - AI+AR眼镜量产就绪,迭代关键在重量和软件[25] - 产品发展分为三个阶段:工具型(2024-2025)→服务型(2026-2027)→陪伴型(2028+)[22] 竞争格局 - 市场玩家分为互联网公司、手机公司、XR公司、其他硬件公司和创业公司五类[27] - 不同类型玩家基于原有业务积累,在五大竞争力要素上各具优势[29] - XR公司占据已发售产品半数以上,在市场中地位重要[31]
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 18:28
核心观点 - 在强化学习训练大模型推理能力时,仅20%的高熵token就能支撑整个训练效果,甚至优于使用全部token训练 [1] - 该方法在Qwen3-32B上创造了新的SOTA记录:AIME'24达到63.5分,AIME'25达到56.7分,是600B参数以下直接从base模型训练的最高分 [2] - 最大响应长度从20k延长到29k,AIME'24分数提升至68.1分 [4] - 该方法突破了经典的二八法则,80%低熵token不仅可以舍弃,还可能起副作用 [6] 链式思考的熵分布 - 大模型进行链式思考推理时,token熵分布呈现独特模式:大部分token熵值低,少数token表现出高熵特征 [9] - 超过50%的token熵值低于0.01,仅20%的token熵值大于0.672 [10] - 高熵token扮演"逻辑连接器"角色,如"wait"、"however"、"thus"等,在推理中起转折、递进或因果连接作用 [11] - 低熵token多为词缀、代码片段或数学表达式组成部分,具有高度确定性 [11] 分叉token的重要性 - 高熵token被称为分叉token,决定推理路径方向,低熵token则沿既定方向进行 [11] - 实验显示:提高高熵token温度能改善推理性能,降低其温度则导致性能下降 [13] - 仅保留top 20%高熵token的策略梯度,屏蔽剩余80%梯度,Qwen3-32B性能显著提升:AIME'24提升7.71分,AIME'25提升11.04分,平均响应长度增加1378个token [15] - Qwen3-14B和Qwen3-8B也有类似提升效果,但规模效应明显:模型越大,优势越显著 [16][22] 训练方法与效果 - 反向实验显示:仅用80%低熵token训练,模型性能急剧下降 [17] - 低熵token对推理能力提升贡献微乎其微,甚至可能起负面作用 [18] - 高熵token帮助模型探索不同推理路径,低熵token过于确定,限制探索能力 [20] - 该方法训练出的模型在域外任务表现优异,暗示高熵token与模型泛化能力密切相关 [22] RLVR训练特性 - RLVR训练并非推倒重来,而是在base model基础上做精细调整 [24] - 训练收敛后(第1360步),模型与base model在高熵token位置上的重叠率仍保持86.67%以上 [24] - RLVR调整策略"偏心":初始熵越高的token,训练后熵增幅越大;低熵token几乎不变 [25] 讨论与启示 - 高熵token可能是解释强化学习能泛化而监督微调倾向于记忆而过拟合的关键 [26] - 强化学习保持甚至增加分叉token熵,维持推理路径灵活性;监督微调则降低分叉token熵,失去灵活性 [27] - 大模型推理需整合先验知识且生成可读性输出,与传统强化学习假设动作熵均匀分布不同 [27] - 在RLVR中,熵奖励可能非最优选择,clip-higher方法能更有效提升高熵少数标记的熵值 [27]