机器之心 - 财报，业绩电话会，研报，新闻

机器之心

搜索文档

机器之心· 2025-05-18 12:25

大模型测试时计算优化 - 核心观点：通过延长模型"思考时间"（测试时计算）可显著提升大语言模型在复杂推理任务中的性能表现，该方向与人类认知双系统理论高度相关[2][6] - GPT、Claude、Gemini等模型通过思维链(CoT)和测试时计算策略优化，在逻辑推理、长文本理解、数学问题求解等高级认知任务上不断突破性能边界[2] - Transformer生成每个token的计算量约为参数量的2倍，而稀疏模型(MoE)因部分网络激活可降低计算量至2×参数数÷稀疏度[8] 思维链技术演进 - 思维链(CoT)允许模型根据问题难度动态调整计算量，早期通过监督学习人类编写的推理路径实现[13] - 强化学习在可验证答案的数据集(如STEM问题)上应用显著提升CoT性能，近期采用策略梯度算法结合自动评估成为主流方法[14] - 模型规模越大，"思考时间"带来的性能收益越显著，在数学问题上成功率提升明显[16] 并行采样与序列修订 - 并行采样通过生成多个候选序列并用验证器筛选最优解，实现简单但依赖模型单次生成能力[19][26] - 序列修订通过迭代修正输出实现质量提升，需额外控制修订风险如正确答案被错误修改[20] - 实验表明简单问题适合纯序列策略，高难度问题需组合并行与序列方法才能获得最优表现[21] 强化学习应用 - DeepSeek-R1通过两阶段SFT-RL训练在数学/编程任务表现优异，验证纯强化学习可涌现"顿悟时刻"类高级推理能力[42][46] - 推理类RL训练使用格式奖励(特殊token包裹CoT)和准确性奖励(自动验证答案)双重机制[43] - 失败案例显示过程奖励模型易导致奖励欺骗，蒙特卡洛树搜索因token空间过大难以应用[49] 外部工具整合 - PAL和Chain of Code方法通过调用代码解释器处理数学计算/编程任务，扩展模型能力边界[52] - ReAct方法结合Wikipedia API调用与推理轨迹生成，实现外部知识整合[56] - OpenAI o3/o4-mini模型融合网页搜索、代码执行等工具操作，验证计算资源与性能正相关[57] 连续空间思考架构 - 递归架构如Universal Transformer通过自适应计算时间动态调整推理步数[82] - 思考token技术通过插入特殊token为模型争取额外计算时间，在数字推理任务效果显著[85] - Quiet-STaR实现token级推理，通过生成未来文本的合理化解释提升预测质量[89] 测试时计算规模效应 - 测试时计算优化相比参数扩展可能更高效，但对困难问题的弥补能力有限[107] - 思维链长度与评估准确率呈正相关，但简单拒绝采样会导致反向scaling现象[112][113] - 最佳效果出现在推理token远少于预训练token时，表明基础模型能力仍是关键[112]

Artificial Intelligence

Artificial Intelligence

DeepSeek - V3

ICML 2025 Spotlight | 用傅里叶分解探讨图像对抗扰动，代码已开源

机器之心· 2025-05-18 12:25

研究背景 - 对抗样本通过微小扰动生成，难以被人眼察觉但显著降低深度学习模型性能，对计算机视觉领域模型安全性和鲁棒性构成重大挑战[5] - 现有对抗净化技术分为基于训练的方法和基于扩散模型的方法，前者需大量训练数据和时间，后者不依赖训练数据且泛化能力更强[5] - 对抗净化在自动驾驶、金融分析和医疗影像等安全关键领域尤为重要，可降低对抗攻击威胁并提升系统整体安全性[5] 动机和理论分析 - 现有策略在像素空间无法解耦干净像素与对抗扰动，导致破坏扰动时损害原始图像语义信息[7] - 对抗扰动更倾向于破坏高频幅度谱和相位谱，低频信息对扰动更鲁棒[7] - 相位谱被噪声破坏速度更快，逆向过程中保留相位谱非常关键[12] 方法 - 利用傅里叶分解技术将图像分解为幅度谱和相位谱，通过滤波器保留低频幅度谱信息[14][15] - 将估计图像低频相位谱投影到输入图像低频相位谱范围内，避免直接保留扰动[16] - 通过逆离散傅里叶变换将更新后的幅度谱和相位谱结合，获得时间域表示[16] 实验效果 CIFAR10 - 在WideResNet-28-10模型上，标准准确率94.14±1.17，鲁棒准确率93.75±0.80，均优于SOTA方法[18] - 在WideResNet-70-16模型上，标准准确率94.92±0.39，鲁棒准确率92.77±0.58，表现最佳[18] ImageNet - 使用ResNet-50分类器，标准准确率77.15±1.57，鲁棒准确率65.04+2.54，显著优于其他方法[19] 可视化 - 净化后图像与原始干净图像在视觉上最为相似，联合分布也最接近原始图像[20] 未来方向 - 探索更有效的图像分解手段以更好解耦对抗扰动和语义信息[21] - 提供更深入的理论解释以进一步优化对抗净化效果[21]

Adversarial Purification

Fourier Decomposition

Diffusion Model

Computer Vision

Adversarial Purification

Fourier Decomposition

Diffusion Model

Computer Vision

ICML 2025｜如何凭「自动补全」实现100K生成3×加速？

机器之心· 2025-05-18 12:25

大模型推理加速挑战 - 当前大模型推理面临超长文本生成的计算成本高、内存负担大、输出重复等问题，制约模型潜力[1] - GPT-o3、DeepSeek R1等具备百万至千万Token上下文窗口的模型使超长推理成为现实需求[1] 传统方法的瓶颈 - 主流模型（如LLaMA、Qwen）采用自回归生成方式，每次仅生成1个Token，导致10万Token以上序列性能急剧下降[4] - 三大核心瓶颈：模型重复重载造成I/O压力、KV缓存无限膨胀、语义重复堆叠[9] TokenSwift技术框架 - BIGAI NLCo团队提出可插拔无损加速框架，专为100K Token级任务设计，加速比达3倍以上[1][7] - 核心技术：多Token并行草拟（每次生成γ个候选）、n-gram启发式补全、树结构验证机制[12][14][16] - 动态KV管理通过重要性衰减策略减少缓存占用，重复惩罚机制提升输出多样性[19] 性能实验数据 - 在YaRN-LLaMA2-7b-128k等模型上测试，100K Token任务中LLaMA3.1-8B生成时间从5小时缩短至1.5小时[21][22] - 序列越长加速越显著：100K时加速比从2.1×提升至3.1×，接受率维持70-90%[23] - Distinct-n指标达0.43-0.69，较未优化前（0.12）显著提升[26] 行业应用价值 - 直接兼容LLaMA、Qwen等主流模型，无需重构架构[28] - 适用于多轮对话、代码生成、Agent计划编排等长文本场景[29] - 开源资源包括论文（ICML 2025）、GitHub代码库及技术博客[8]

大模型推理加速

超长文本生成

Artificial Intelligence

Artificial Intelligence

TokenSwift

GPT-o3

DeepSeek R1

从 VLM 到 VLA，智驾距离跨过「L2.9999」还有多远？

机器之心· 2025-05-18 10:38

机器之心PRO · 会员通讯 Week 20 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. 从 VLM 到 VLA，智驾距离跨过「L2.9999」还有多远？各大厂商智驾宣传坚持「卡」在 L2.999...有何玄机？端到端为何会成为主流叙事？车企在谈论端到端的时候，到底在谈论的是什么？端到端智驾「说得比做得好」，存在哪些瓶颈？特斯拉为何被普遍认为领先市场？从 VLM 到 VLA，再到世界模型，自动驾驶技术正在如何演进？... 2. 争夺 Agent 市场，微软的押宝点竟是「情商」？是情商将微软 AI 的核心竞争力？微软的办公 Agent 和 AI 伴侣如何区分？语音交互能否让 Copilot 脱颖而出，成功超越工具属性？Suleyman 提出的「AI 个性工程」如何带来差异化优势？AI 算力的哪两个趋势正在发生？... 本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递，其中技术方面 12 项，国内方面 7 项，国外方面 10 项。本期通讯总计 23569 字，可免费试读至 9% 消耗 99 微信豆即可兑换完整本期 ...

图像分词器造反了！华为 Selftok：自回归内核完美统一扩散模型，触发像素自主推理

机器之心· 2025-05-17 14:00

自回归范式在视觉生成领域的挑战与突破 - 当前视觉生成领域强行将图像网格化为空间token塞入自回归架构，导致因果链破碎，无法真正实现AR本质[1] - 华为盘古团队提出Selftok技术，通过反向扩散过程将自回归先验融入视觉token，使像素流转化为严格遵循因果律的离散序列[1][5] - 该技术入选CVPR 2025最佳论文候选（14/13008，0.1%）[3] 离散化视觉token的技术优势 - 连续视觉表征存在三重缺陷：预测稳定性差（MSE训练误差高于XE分类器）、强化学习复杂度激增、解耦能力受限导致模式坍缩[6] - 离散表征可保持高精度，实现因子更好解耦，且严格满足贝尔曼方程，使RL策略优化具有理论最优解[6][25] - 华为方案在ImageNet重建指标达SOTA：1024 token时rFID 0.54、PSNR 26.30、SSIM 0.805[29] Selftok核心技术架构 - 采用双流编码器：图像分支继承SD3 VAE隐空间，文本分支创新使用可学习连续向量组捕捉扩散特征[20] - 量化器通过EMA更新codebook和"code偏移监测-重激活"机制，解决传统训练不均衡问题[20] - 解码器引入时序感知token分配策略，昇腾910B2上单卡推理速度从8.2秒压缩至0.31秒[20] 多模态训练与强化学习优化 - 预训练扩展LLaMA-3-8B词表，新增32,768个图像token，复用LLM训练范式[24] - 设计两类奖励函数：基于程序的目标检测评估（提升图文一致性）和基于VQA任务的通用评估[25] - RL优化后模型在GenEval Bench达92分，超越GPT-4o；DPG Bench达85.57分，多项子任务SOTA[29][30] 跨模态生成与编辑性能 - 纯AR架构实现LLM与diffusion融合，单凭next-token prediction统一跨模态生成[7] - 图像编辑任务中结构距离35.89、PSNR 23.76，显著优于Prompt-to-Prompt等传统方法[33] - 多轮编辑展示精确指令遵循能力，非编辑区域保持效果匹配GPT-4o和Gemini-2.0[35]

CVPR 2025 | SketchVideo让手绘动起来，视频生成进入线稿时代

机器之心· 2025-05-17 14:00

生成式AI视频技术发展 - 生成式AI在文本和图像领域已成熟，视频生成成为AIGC重要研究方向，应用于影视制作、短视频合成等领域[1] - 现有商用/开源模型（如Sora、可灵、CogVideo）依赖文本/图像输入，但存在几何细节控制不足、运动信息难以精确调节等局限性[7][9] - 视频局部二次编辑需解决空间与时序一致性难题，当前方法多聚焦整体风格变化而非局部几何编辑[9][11] SketchVideo技术创新 - 提出基于线稿的可控视频生成/编辑方法，仅需1-2帧关键帧线稿即可生成时序一致的动态视频，支持局部区域修改[1][12] - 采用跳跃式残差控制结构：将条件模块以固定间隔嵌入预训练模型（CogVideo-2B），参数开销减少50%以上[11][12] - 引入帧间注意力机制，通过稀疏传播关键帧控制特征实现全视频一致性[12] - 视频编辑新增视频嵌入模块，结合局部融合策略保留非编辑区域内容[12] 应用效果展示 - 单帧线稿+文本输入可生成高质量视频，指定时间点与线稿匹配度达90%以上[15][17] - 双帧线稿输入可控制物体运动轨迹，实现定制化生成[17][19] - 真实视频编辑支持局部区域修改（如树枝移动、头部旋转），新内容与原始视频运动同步[19][21] 行业影响 - 突破专业视频制作门槛，用户通过简单线稿即可创作动态内容，效率提升约70%[23] - 技术已被CVPR 2025收录，相关代码及Demo在GitHub和YouTube开源[8][23] - 相比传统文本驱动方法，几何控制精度提升40%，填补了视频生成领域可控性空白[9][12]

争夺 Agent 市场，微软的押宝点竟是「情商」？

机器之心· 2025-05-17 10:20

从执行命令到理解情绪，Suleyman 如何解读 AI 未来 - Mustafa Suleyman 强调将个性与情商融入 AI 的重要性，推动 AI 从功能性向人性化发展 [6] - AI 将成为生活中的「伴侣」而不仅是工具，在工作场景中作为高效 Agent 执行任务，在个人生活中提供情感支持和个性化服务 [7] - AI 差异化竞争重点从功能转向情感连接，个性、情商、语气和感觉与智商同等重要 [7] - AI 设计注重塑造独特「个性」，通过情感化交互提升用户体验和忠诚度 [8] - 语音交互和视觉能力使 AI 更自然智能，语音能根据用户语调调整回应，视觉帮助理解环境和情境 [8] - 未来工作将更依赖 AI 协助，人类需培养适应性、自学能力和管理 AI 能力 [8] - AI 模型将继续发展，算力需求增加但模型会更小更高效，更多模型将被压缩部署到本地设备 [8] 继承 Pi 的内核后，Copilot 能否靠情商打出微软的差异化优势 - Mustafa Suleyman 将当前 AI 发展阶段类比为「笔记本电脑的原始时代」，强调技术演进不确定性 [9] - 提出「AI 情商与智商同等重要」的核心观点 [9] 如何定义 AI 作为工具和伴侣的双重角色 - 办公 Agents 和伴侣 Agent 存在区别，两者对数据要求不同 [4] - 微软将设计差异化的 Agent 产品 [4] AI 如何重塑工作与劳动力市场 - 算力扩张并非 AI 发展的唯一方向 [5] - 算力资源同时发生两个趋势（具体趋势未在原文中展开） [5]

微软(US:MSFT)

Artificial Intelligence

AI Agent

AI Companion

Emotional Intelligence in AI

Software & Internet

Copilot

Artificial Intelligence

AI Agent

AI Companion

Emotional Intelligence in AI

Software & Internet

Copilot

85倍速度碾压：苹果开源FastVLM，能在iphone直接运行的视觉语言模型

机器之心· 2025-05-17 00:31

苹果开源FastVLM模型 - 苹果开源高效视觉语言模型FastVLM，可在iPhone上直接运行，优化苹果设备性能[2][3] - 模型推出0.5B、1.5B、7B三个参数量级版本，提供stage2和stage3两阶段微调权重[7] - 代码仓库包含基于MLX框架的iOS/macOS演示应用，提升用户体验[3] FastVLM技术优势 - 首个token输出速度比同类模型提升85倍，视觉token数量比传统ViT少16倍[6] - 采用新型混合视觉编码器FastViTHD，融合卷积层和Transformer模块[6] - 多尺度池化和下采样技术显著降低图片处理所需视觉token数量[6] 模型架构创新 - FastViTHD专为高分辨率视觉语言处理设计，参数量比ViT-L/14小2.4倍，速度快6.9倍[37] - 架构包含五个阶段，前三阶段使用RepMixer模块，后两阶段采用多头自注意力[36] - 支持静态与动态输入分辨率策略，在目标分辨率下实现最佳精度-延迟平衡[49] 性能表现 - 在38项多模态零样本任务中表现与ViT-L/14相当，推理速度快5.6倍[37] - 相同0.5B LLM条件下性能媲美LLaVa-OneVision，TTFT快85倍[16] - 参数量仅为ConvNeXT-XXL的1/6.8，速度提升3.3倍[42] 应用场景 - 兼容主流LLM并适配iOS/Mac生态，适合边缘设备和端侧AI应用[6] - 支持图像自动生成陈述、问答、数据分析和对象识别等功能[6] - 优化实时图文任务场景，显著提升AI与图像交互体验[6]

ICML 2025 Spotlight｜南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架，准确率提高20%

机器之心· 2025-05-17 00:31

多模态大语言模型高分辨率图像感知技术核心观点 - 提出无需训练的Retrieval-Augmented Perception (RAP)框架，通过检索增强技术解决MLLMs处理高分辨率图像时的信息损失问题，显著提升视觉问答和推理性能 [3][16][29] - 关键创新包括：Spatial-Awareness Layout算法维持图像块空间关系，RE-Search自适应选择最优图像块数量 [16][18][19] - 在HR-Bench 4K/8K数据集上实现最大21.7%准确率提升，吞吐量达4.2倍优于现有方法 [25][26][27] 技术方案细节现有方法局限性 - 基于裁剪的方法需处理300K视觉token，超出LLMs上下文长度限制 [2] - 高分视觉编码器仍需降采样，导致信息损失 [2] - 基于搜索的方法易受初始分辨率干扰，推理延迟增加 [2][15] RAP核心组件 1. **视觉检索增强** - 通过VisualRAG计算图像块与问题的相似度，筛选top-K关键块 [18] - 仅检索相关块可使输入分辨率降低6.5% [27] 2. **空间感知布局** - 三种布局策略对比显示：维持相对位置关系使FCP任务性能提升30% [7][10] - 通过0-1矩阵压缩非关键行列，保留空间信息 [18] 3. **自适应搜索算法** - RE-Search结合相似度分数(g(t))和模型置信度(h(t))动态调整权重 [19][20] - 超参数b=0.2时最优，深度d增加时h(t)权重非线性增长 [22][23] 性能验证基准测试结果 - **开源模型提升**：LLaVA-v1.5-7B结合RAP在HR-Bench 8K上FSP任务从33%提升至72.3% [26] - **闭源模型对比**：超越GPT-4o在V*Bench的66%准确率，达91.1% [26] - **吞吐量优势**：4.2倍于DC2方法(2.1)，准确率提高8.6个百分点 [27] 任务敏感性分析 - FSP任务需较少图像块(K小)，FCP任务需更多视觉信息(K大) [12][14] - 8K分辨率下，FCP任务最佳K值使性能提升44.8% vs baseline 40.8% [9][14] 行业应用价值 - 突破性解决8K图像处理瓶颈，为医疗影像、卫星遥感等领域提供技术路径 [1][16] - 无需微调即可适配LLaVA/InternVL等主流MLLMs，降低部署成本 [25][26] - ICML 2025 Spotlight论文(top 2.6%)验证学术影响力 [3]

多模态大语言模型（MLLMs）

检索增强生成技术（RAG）

Retrieval-Augmented Perception (RAP)

多模态大语言模型（MLLMs）

检索增强生成技术（RAG）

Retrieval-Augmented Perception (RAP)

刚刚，OpenAI最强编程智能体上线ChatGPT

机器之心· 2025-05-17 00:31

产品发布 - OpenAI宣布在ChatGPT中引入Codex研究预览版，这是一个云端软件工程智能体，可并行处理编写功能、解答代码问题、修复bug及提交拉取请求等任务[2] - Codex基于codex-1模型开发，该模型是OpenAI o3的优化版本，专门针对软件工程任务进行强化学习训练，生成的代码高度符合人类风格和PR偏好[4] - 产品初期面向ChatGPT Pro、Team和Enterprise用户开放，Plus和Edu用户将很快获得访问权限[5] 技术能力 - Codex在专属云沙盒环境中运行，预加载用户代码库，具备读写文件能力并可运行测试框架、代码检查器等命令[12] - 任务处理时间为1-30分钟（视复杂度而定），用户可实时查看进度并通过终端日志和测试输出验证操作[12] - 智能体遵循AGENTS.md文件指导操作，类似人类开发者需要配置环境、测试方案和文档支持[13] - 在内部测试中，codex-1即使没有AGENTS.md文件也展现出强劲性能[14] 产品特性 - 与o3相比，codex-1能生成更清晰的patch便于人工审核和集成到标准工作流程[18] - 完全运行于云端安全隔离容器，任务执行期间禁用互联网访问，仅能交互GitHub仓库提供的代码和预装依赖项[21] - 当前版本暂不支持前端图像输入和实时调整智能体功能[24] 商业模式 - 初期提供免费试用期，后续将推出限速访问和按需付费选项[23] - 通过Responses API调用codex-mini-latest模型的定价为输入tokens每100万$1.50，输出tokens每100万$6[28] 行业影响 - 行业观察者认为Codex可实现软件自我编写，测试显示其擅长模拟代码行为和外观[6] - 远程智能体执行速度虽慢于交互式编辑，但未来协作模式将趋近人类同事的异步协作[25] - 该技术预示编程门槛可能持续降低[27]

人工智能编程智能体

Artificial Intelligence

ChatGPT

Codex

人工智能编程智能体

Artificial Intelligence

ChatGPT

Codex

Previous Next