机器之心

搜索文档
刚刚!北大校友Lilian Weng最新博客来了:Why We Think
机器之心· 2025-05-18 12:25
大模型测试时计算优化 - 核心观点:通过延长模型"思考时间"(测试时计算)可显著提升大语言模型在复杂推理任务中的性能表现,该方向与人类认知双系统理论高度相关[2][6] - GPT、Claude、Gemini等模型通过思维链(CoT)和测试时计算策略优化,在逻辑推理、长文本理解、数学问题求解等高级认知任务上不断突破性能边界[2] - Transformer生成每个token的计算量约为参数量的2倍,而稀疏模型(MoE)因部分网络激活可降低计算量至2×参数数÷稀疏度[8] 思维链技术演进 - 思维链(CoT)允许模型根据问题难度动态调整计算量,早期通过监督学习人类编写的推理路径实现[13] - 强化学习在可验证答案的数据集(如STEM问题)上应用显著提升CoT性能,近期采用策略梯度算法结合自动评估成为主流方法[14] - 模型规模越大,"思考时间"带来的性能收益越显著,在数学问题上成功率提升明显[16] 并行采样与序列修订 - 并行采样通过生成多个候选序列并用验证器筛选最优解,实现简单但依赖模型单次生成能力[19][26] - 序列修订通过迭代修正输出实现质量提升,需额外控制修订风险如正确答案被错误修改[20] - 实验表明简单问题适合纯序列策略,高难度问题需组合并行与序列方法才能获得最优表现[21] 强化学习应用 - DeepSeek-R1通过两阶段SFT-RL训练在数学/编程任务表现优异,验证纯强化学习可涌现"顿悟时刻"类高级推理能力[42][46] - 推理类RL训练使用格式奖励(特殊token包裹CoT)和准确性奖励(自动验证答案)双重机制[43] - 失败案例显示过程奖励模型易导致奖励欺骗,蒙特卡洛树搜索因token空间过大难以应用[49] 外部工具整合 - PAL和Chain of Code方法通过调用代码解释器处理数学计算/编程任务,扩展模型能力边界[52] - ReAct方法结合Wikipedia API调用与推理轨迹生成,实现外部知识整合[56] - OpenAI o3/o4-mini模型融合网页搜索、代码执行等工具操作,验证计算资源与性能正相关[57] 连续空间思考架构 - 递归架构如Universal Transformer通过自适应计算时间动态调整推理步数[82] - 思考token技术通过插入特殊token为模型争取额外计算时间,在数字推理任务效果显著[85] - Quiet-STaR实现token级推理,通过生成未来文本的合理化解释提升预测质量[89] 测试时计算规模效应 - 测试时计算优化相比参数扩展可能更高效,但对困难问题的弥补能力有限[107] - 思维链长度与评估准确率呈正相关,但简单拒绝采样会导致反向scaling现象[112][113] - 最佳效果出现在推理token远少于预训练token时,表明基础模型能力仍是关键[112]
ICML 2025 Spotlight | 用傅里叶分解探讨图像对抗扰动,代码已开源
机器之心· 2025-05-18 12:25
研究背景 - 对抗样本通过微小扰动生成,难以被人眼察觉但显著降低深度学习模型性能,对计算机视觉领域模型安全性和鲁棒性构成重大挑战[5] - 现有对抗净化技术分为基于训练的方法和基于扩散模型的方法,前者需大量训练数据和时间,后者不依赖训练数据且泛化能力更强[5] - 对抗净化在自动驾驶、金融分析和医疗影像等安全关键领域尤为重要,可降低对抗攻击威胁并提升系统整体安全性[5] 动机和理论分析 - 现有策略在像素空间无法解耦干净像素与对抗扰动,导致破坏扰动时损害原始图像语义信息[7] - 对抗扰动更倾向于破坏高频幅度谱和相位谱,低频信息对扰动更鲁棒[7] - 相位谱被噪声破坏速度更快,逆向过程中保留相位谱非常关键[12] 方法 - 利用傅里叶分解技术将图像分解为幅度谱和相位谱,通过滤波器保留低频幅度谱信息[14][15] - 将估计图像低频相位谱投影到输入图像低频相位谱范围内,避免直接保留扰动[16] - 通过逆离散傅里叶变换将更新后的幅度谱和相位谱结合,获得时间域表示[16] 实验效果 CIFAR10 - 在WideResNet-28-10模型上,标准准确率94.14±1.17,鲁棒准确率93.75±0.80,均优于SOTA方法[18] - 在WideResNet-70-16模型上,标准准确率94.92±0.39,鲁棒准确率92.77±0.58,表现最佳[18] ImageNet - 使用ResNet-50分类器,标准准确率77.15±1.57,鲁棒准确率65.04+2.54,显著优于其他方法[19] 可视化 - 净化后图像与原始干净图像在视觉上最为相似,联合分布也最接近原始图像[20] 未来方向 - 探索更有效的图像分解手段以更好解耦对抗扰动和语义信息[21] - 提供更深入的理论解释以进一步优化对抗净化效果[21]
ICML 2025|如何凭「自动补全」实现100K生成3×加速?
机器之心· 2025-05-18 12:25
大模型推理加速挑战 - 当前大模型推理面临超长文本生成的计算成本高、内存负担大、输出重复等问题,制约模型潜力[1] - GPT-o3、DeepSeek R1等具备百万至千万Token上下文窗口的模型使超长推理成为现实需求[1] 传统方法的瓶颈 - 主流模型(如LLaMA、Qwen)采用自回归生成方式,每次仅生成1个Token,导致10万Token以上序列性能急剧下降[4] - 三大核心瓶颈:模型重复重载造成I/O压力、KV缓存无限膨胀、语义重复堆叠[9] TokenSwift技术框架 - BIGAI NLCo团队提出可插拔无损加速框架,专为100K Token级任务设计,加速比达3倍以上[1][7] - 核心技术:多Token并行草拟(每次生成γ个候选)、n-gram启发式补全、树结构验证机制[12][14][16] - 动态KV管理通过重要性衰减策略减少缓存占用,重复惩罚机制提升输出多样性[19] 性能实验数据 - 在YaRN-LLaMA2-7b-128k等模型上测试,100K Token任务中LLaMA3.1-8B生成时间从5小时缩短至1.5小时[21][22] - 序列越长加速越显著:100K时加速比从2.1×提升至3.1×,接受率维持70-90%[23] - Distinct-n指标达0.43-0.69,较未优化前(0.12)显著提升[26] 行业应用价值 - 直接兼容LLaMA、Qwen等主流模型,无需重构架构[28] - 适用于多轮对话、代码生成、Agent计划编排等长文本场景[29] - 开源资源包括论文(ICML 2025)、GitHub代码库及技术博客[8]
从 VLM 到 VLA,智驾距离跨过「L2.9999」还有多远?
机器之心· 2025-05-18 10:38
机器之心PRO · 会员通讯 Week 20 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. 从 VLM 到 VLA,智驾距离跨过「L2.9999」还有多远? 各大厂商智驾宣传坚持「卡」在 L2.999...有何玄机?端到端为何会成为主流叙事?车企在谈论端到端的时候,到底在谈论的是 什么?端到端智驾「说得比做得好」,存在哪些瓶颈?特斯拉为何被普遍认为领先市场?从 VLM 到 VLA,再到世界模型,自 动驾驶技术正在如何演进?... 2. 争夺 Agent 市场,微软的押宝点竟是「情商」? 是 情商将微软 AI 的核心竞争力?微软的办公 Agent 和 AI 伴侣如何区分?语音交互能否让 Copilot 脱颖而出,成功超越工具 属性?Suleyman 提出的「AI 个性工程」如何带来差异化优势?AI 算力的哪两个趋势正在发生?... 本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 7 项,国外方面 10 项。 本期通讯总计 23569 字,可免费试读至 9% 消耗 99 微信豆即可兑换完整本期 ...
图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理
机器之心· 2025-05-17 14:00
自回归范式在视觉生成领域的挑战与突破 - 当前视觉生成领域强行将图像网格化为空间token塞入自回归架构,导致因果链破碎,无法真正实现AR本质[1] - 华为盘古团队提出Selftok技术,通过反向扩散过程将自回归先验融入视觉token,使像素流转化为严格遵循因果律的离散序列[1][5] - 该技术入选CVPR 2025最佳论文候选(14/13008,0.1%)[3] 离散化视觉token的技术优势 - 连续视觉表征存在三重缺陷:预测稳定性差(MSE训练误差高于XE分类器)、强化学习复杂度激增、解耦能力受限导致模式坍缩[6] - 离散表征可保持高精度,实现因子更好解耦,且严格满足贝尔曼方程,使RL策略优化具有理论最优解[6][25] - 华为方案在ImageNet重建指标达SOTA:1024 token时rFID 0.54、PSNR 26.30、SSIM 0.805[29] Selftok核心技术架构 - 采用双流编码器:图像分支继承SD3 VAE隐空间,文本分支创新使用可学习连续向量组捕捉扩散特征[20] - 量化器通过EMA更新codebook和"code偏移监测-重激活"机制,解决传统训练不均衡问题[20] - 解码器引入时序感知token分配策略,昇腾910B2上单卡推理速度从8.2秒压缩至0.31秒[20] 多模态训练与强化学习优化 - 预训练扩展LLaMA-3-8B词表,新增32,768个图像token,复用LLM训练范式[24] - 设计两类奖励函数:基于程序的目标检测评估(提升图文一致性)和基于VQA任务的通用评估[25] - RL优化后模型在GenEval Bench达92分,超越GPT-4o;DPG Bench达85.57分,多项子任务SOTA[29][30] 跨模态生成与编辑性能 - 纯AR架构实现LLM与diffusion融合,单凭next-token prediction统一跨模态生成[7] - 图像编辑任务中结构距离35.89、PSNR 23.76,显著优于Prompt-to-Prompt等传统方法[33] - 多轮编辑展示精确指令遵循能力,非编辑区域保持效果匹配GPT-4o和Gemini-2.0[35]
CVPR 2025 | SketchVideo让手绘动起来,视频生成进入线稿时代
机器之心· 2025-05-17 14:00
生成式AI视频技术发展 - 生成式AI在文本和图像领域已成熟,视频生成成为AIGC重要研究方向,应用于影视制作、短视频合成等领域[1] - 现有商用/开源模型(如Sora、可灵、CogVideo)依赖文本/图像输入,但存在几何细节控制不足、运动信息难以精确调节等局限性[7][9] - 视频局部二次编辑需解决空间与时序一致性难题,当前方法多聚焦整体风格变化而非局部几何编辑[9][11] SketchVideo技术创新 - 提出基于线稿的可控视频生成/编辑方法,仅需1-2帧关键帧线稿即可生成时序一致的动态视频,支持局部区域修改[1][12] - 采用跳跃式残差控制结构:将条件模块以固定间隔嵌入预训练模型(CogVideo-2B),参数开销减少50%以上[11][12] - 引入帧间注意力机制,通过稀疏传播关键帧控制特征实现全视频一致性[12] - 视频编辑新增视频嵌入模块,结合局部融合策略保留非编辑区域内容[12] 应用效果展示 - 单帧线稿+文本输入可生成高质量视频,指定时间点与线稿匹配度达90%以上[15][17] - 双帧线稿输入可控制物体运动轨迹,实现定制化生成[17][19] - 真实视频编辑支持局部区域修改(如树枝移动、头部旋转),新内容与原始视频运动同步[19][21] 行业影响 - 突破专业视频制作门槛,用户通过简单线稿即可创作动态内容,效率提升约70%[23] - 技术已被CVPR 2025收录,相关代码及Demo在GitHub和YouTube开源[8][23] - 相比传统文本驱动方法,几何控制精度提升40%,填补了视频生成领域可控性空白[9][12]
争夺 Agent 市场,微软的押宝点竟是「情商」?
机器之心· 2025-05-17 10:20
从执行命令到理解情绪,Suleyman 如何解读 AI 未来 - Mustafa Suleyman 强调将个性与情商融入 AI 的重要性,推动 AI 从功能性向人性化发展 [6] - AI 将成为生活中的「伴侣」而不仅是工具,在工作场景中作为高效 Agent 执行任务,在个人生活中提供情感支持和个性化服务 [7] - AI 差异化竞争重点从功能转向情感连接,个性、情商、语气和感觉与智商同等重要 [7] - AI 设计注重塑造独特「个性」,通过情感化交互提升用户体验和忠诚度 [8] - 语音交互和视觉能力使 AI 更自然智能,语音能根据用户语调调整回应,视觉帮助理解环境和情境 [8] - 未来工作将更依赖 AI 协助,人类需培养适应性、自学能力和管理 AI 能力 [8] - AI 模型将继续发展,算力需求增加但模型会更小更高效,更多模型将被压缩部署到本地设备 [8] 继承 Pi 的内核后,Copilot 能否靠情商打出微软的差异化优势 - Mustafa Suleyman 将当前 AI 发展阶段类比为「笔记本电脑的原始时代」,强调技术演进不确定性 [9] - 提出「AI 情商与智商同等重要」的核心观点 [9] 如何定义 AI 作为工具和伴侣的双重角色 - 办公 Agents 和伴侣 Agent 存在区别,两者对数据要求不同 [4] - 微软将设计差异化的 Agent 产品 [4] AI 如何重塑工作与劳动力市场 - 算力扩张并非 AI 发展的唯一方向 [5] - 算力资源同时发生两个趋势(具体趋势未在原文中展开) [5]
85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型
机器之心· 2025-05-17 00:31
苹果开源FastVLM模型 - 苹果开源高效视觉语言模型FastVLM,可在iPhone上直接运行,优化苹果设备性能[2][3] - 模型推出0.5B、1.5B、7B三个参数量级版本,提供stage2和stage3两阶段微调权重[7] - 代码仓库包含基于MLX框架的iOS/macOS演示应用,提升用户体验[3] FastVLM技术优势 - 首个token输出速度比同类模型提升85倍,视觉token数量比传统ViT少16倍[6] - 采用新型混合视觉编码器FastViTHD,融合卷积层和Transformer模块[6] - 多尺度池化和下采样技术显著降低图片处理所需视觉token数量[6] 模型架构创新 - FastViTHD专为高分辨率视觉语言处理设计,参数量比ViT-L/14小2.4倍,速度快6.9倍[37] - 架构包含五个阶段,前三阶段使用RepMixer模块,后两阶段采用多头自注意力[36] - 支持静态与动态输入分辨率策略,在目标分辨率下实现最佳精度-延迟平衡[49] 性能表现 - 在38项多模态零样本任务中表现与ViT-L/14相当,推理速度快5.6倍[37] - 相同0.5B LLM条件下性能媲美LLaVa-OneVision,TTFT快85倍[16] - 参数量仅为ConvNeXT-XXL的1/6.8,速度提升3.3倍[42] 应用场景 - 兼容主流LLM并适配iOS/Mac生态,适合边缘设备和端侧AI应用[6] - 支持图像自动生成陈述、问答、数据分析和对象识别等功能[6] - 优化实时图文任务场景,显著提升AI与图像交互体验[6]
ICML 2025 Spotlight|南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架,准确率提高20%
机器之心· 2025-05-17 00:31
多模态大语言模型高分辨率图像感知技术 核心观点 - 提出无需训练的Retrieval-Augmented Perception (RAP)框架,通过检索增强技术解决MLLMs处理高分辨率图像时的信息损失问题,显著提升视觉问答和推理性能 [3][16][29] - 关键创新包括:Spatial-Awareness Layout算法维持图像块空间关系,RE-Search自适应选择最优图像块数量 [16][18][19] - 在HR-Bench 4K/8K数据集上实现最大21.7%准确率提升,吞吐量达4.2倍优于现有方法 [25][26][27] 技术方案细节 现有方法局限性 - 基于裁剪的方法需处理300K视觉token,超出LLMs上下文长度限制 [2] - 高分视觉编码器仍需降采样,导致信息损失 [2] - 基于搜索的方法易受初始分辨率干扰,推理延迟增加 [2][15] RAP核心组件 1. **视觉检索增强** - 通过VisualRAG计算图像块与问题的相似度,筛选top-K关键块 [18] - 仅检索相关块可使输入分辨率降低6.5% [27] 2. **空间感知布局** - 三种布局策略对比显示:维持相对位置关系使FCP任务性能提升30% [7][10] - 通过0-1矩阵压缩非关键行列,保留空间信息 [18] 3. **自适应搜索算法** - RE-Search结合相似度分数(g(t))和模型置信度(h(t))动态调整权重 [19][20] - 超参数b=0.2时最优,深度d增加时h(t)权重非线性增长 [22][23] 性能验证 基准测试结果 - **开源模型提升**:LLaVA-v1.5-7B结合RAP在HR-Bench 8K上FSP任务从33%提升至72.3% [26] - **闭源模型对比**:超越GPT-4o在V*Bench的66%准确率,达91.1% [26] - **吞吐量优势**:4.2倍于DC2方法(2.1),准确率提高8.6个百分点 [27] 任务敏感性分析 - FSP任务需较少图像块(K小),FCP任务需更多视觉信息(K大) [12][14] - 8K分辨率下,FCP任务最佳K值使性能提升44.8% vs baseline 40.8% [9][14] 行业应用价值 - 突破性解决8K图像处理瓶颈,为医疗影像、卫星遥感等领域提供技术路径 [1][16] - 无需微调即可适配LLaVA/InternVL等主流MLLMs,降低部署成本 [25][26] - ICML 2025 Spotlight论文(top 2.6%)验证学术影响力 [3]
刚刚,OpenAI最强编程智能体上线ChatGPT
机器之心· 2025-05-17 00:31
产品发布 - OpenAI宣布在ChatGPT中引入Codex研究预览版,这是一个云端软件工程智能体,可并行处理编写功能、解答代码问题、修复bug及提交拉取请求等任务[2] - Codex基于codex-1模型开发,该模型是OpenAI o3的优化版本,专门针对软件工程任务进行强化学习训练,生成的代码高度符合人类风格和PR偏好[4] - 产品初期面向ChatGPT Pro、Team和Enterprise用户开放,Plus和Edu用户将很快获得访问权限[5] 技术能力 - Codex在专属云沙盒环境中运行,预加载用户代码库,具备读写文件能力并可运行测试框架、代码检查器等命令[12] - 任务处理时间为1-30分钟(视复杂度而定),用户可实时查看进度并通过终端日志和测试输出验证操作[12] - 智能体遵循AGENTS.md文件指导操作,类似人类开发者需要配置环境、测试方案和文档支持[13] - 在内部测试中,codex-1即使没有AGENTS.md文件也展现出强劲性能[14] 产品特性 - 与o3相比,codex-1能生成更清晰的patch便于人工审核和集成到标准工作流程[18] - 完全运行于云端安全隔离容器,任务执行期间禁用互联网访问,仅能交互GitHub仓库提供的代码和预装依赖项[21] - 当前版本暂不支持前端图像输入和实时调整智能体功能[24] 商业模式 - 初期提供免费试用期,后续将推出限速访问和按需付费选项[23] - 通过Responses API调用codex-mini-latest模型的定价为输入tokens每100万$1.50,输出tokens每100万$6[28] 行业影响 - 行业观察者认为Codex可实现软件自我编写,测试显示其擅长模拟代码行为和外观[6] - 远程智能体执行速度虽慢于交互式编辑,但未来协作模式将趋近人类同事的异步协作[25] - 该技术预示编程门槛可能持续降低[27]