机器之心
搜索文档
UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!
机器之心· 2026-03-16 09:31
文章核心观点 - UniPat AI公司构建了一个名为SWE-Vision的极简视觉智能体框架,该框架通过让多模态大模型编写并执行Python代码来处理和验证自身的视觉判断,从而在多个主流视觉基准测试中达到了当前最优水平[1][5][9] 多模态大模型的视觉能力短板 - 尽管多模态大模型的代码能力在过去一年进步惊人,已可比肩资深工程师,但在基础视觉任务(如计量、计数和空间关系判断)上表现并不可靠,经常出错[3] - 模型在视觉理解上的典型问题是“看见了,却无法精确处理”,例如阅读柱状图时只能感知“大约75%”而无法精确计算比值,或在复杂场景中计数时逐一清点出错[3][7] SWE-Vision框架的极简设计 - 该框架的核心设计理念是极简化,工具层仅保留`execute_code`(执行代码)和`finish`(输出答案)两个通用工具,而非提供一堆专用视觉API[11][12] - 控制层实现了一个标准的智能体循环,模型根据问题决定是否调用工具,并可在开启推理模式时进行最多100轮迭代[13] - 执行层采用Docker容器中持久化的Jupyter内核,使得变量、导入库和图像对象等状态能在多次代码调用间保留,支持跨步骤的连续实验[14][22] 系统工作流程与关键特性 - 工作流程类似会看图的数据科学家:模型接收用户问题和图片后,先思考是否需要计算/验证,如需则调用`execute_code`在Notebook环境中用PIL/NumPy等进行分析,代码执行结果(数值/报错/可视化图)回流给模型,模型迭代直至调用`finish`给出最终答案[17][18] - 关键特性包括:有状态的执行环境、Docker沙箱保障安全与复现性、支持图像输入与输出以实现自我验证、以及采用OpenAI function calling标准接口保证兼容性[22][25] 性能表现与基准测试结果 - 在五个主流视觉基准测试中,SWE-Vision均提升了前沿大语言模型的表现并取得了最先进的结果[9] - 具体得分如下:在BabyVision上达到64.4,在MathVision上达到94.0,在Zero-Bench-Sub上达到50.1,在OmniSpatial上达到69.0,在CharXiv-RQ上达到82.5[9] - 提升幅度最大的往往是基础感知和精确处理任务(如计数、颜色识别),而非最复杂的高阶推理任务[34] 设计有效性的原因与行业启示 - 极简设计之所以更强,是因为工具数量少、决策清晰,且工具语义与模型已有的强大代码能力高度一致,这为前沿多模态模型的视觉能力提供了一个有效的测试时扩展方向[26][27][32] - 该框架表明,对于视觉任务,测试时扩展不一定仅靠“多想几段文字”,也可以靠“多写几行代码”来实现更精细的分析[35] - 其价值在于允许模型像一个真正的科学家一样,先做实验再下结论,实现了“先结构化分析、再程序化测量、最后数值验证”的思维与行动闭环[20][24] 未来发展方向 - 要彻底释放“工具增强视觉”的潜力,行业需要更多深度交织的视觉-编程监督微调/强化学习数据与环境,以训练视觉智能体模型[37][38] - 具体的关键方向包括:让模型学会判断何时需要代码辅助、在多步推理中主动验证中间结果、在代码方案无效时进行失败恢复,以及实现“观察”与“计算”的原生深度融合[39][40]
后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发
机器之心· 2026-03-15 14:00
论文核心观点 - 提出了一种颠覆传统认知的后训练新方法RandOpt 该方法仅需向预训练模型权重添加单步高斯噪声并进行模型集成 无需迭代、学习率或梯度计算 即可在多项复杂任务上达到或超越传统强化学习方法(如PPO、GRPO)的性能 [1][4][7] - 揭示了大型预训练模型参数空间存在“神经丛林”现象 即预训练权重周围密集分布着大量针对特定任务的专家模型 使得简单的随机采样就能发现有效解决方案 [3][4][23] - 指出“神经丛林”的涌现依赖于模型规模和在混合多任务数据上的预训练 模型越大、预训练数据越多样 其周围任务专家的密度和多样性就越高 [20][26][28][29] 神经丛林现象的理论基础 - 传统观点认为优秀解决方案在权重空间中分布稀疏 但该研究发现在完成预训练后 大型语言模型的权重空间形成了密集的“神经丛林” [3] - 模型规模决定分布形态:小模型处于“大海捞针”状态 优秀解决方案密度极低 大模型则处于“神经丛林”状态 预训练权重周围密集分布着能提升特定任务性能的专家 [22][23] - 通过向参数量从0.5B到32B的Qwen2.5预训练模型注入1000个随机权重扰动并可视化 实验清晰呈现了缩放定律 即模型规模越大 代表更高准确率的任务改善区域就越密集 [24][26] - 1D信号预测实验表明 “神经丛林”仅在模型经过混合多任务预训练后才会出现 单一任务预训练无法形成功能多样性 [28][29][31] RandOpt算法机制与性能 - RandOpt算法定义为单步、无梯度、无学习率、无迭代、完全并行的后训练算法 操作分为两个阶段:1) 训练阶段 采样N个随机噪声生成模型副本并在小训练集上选出Top-K个表现最好的模型 2) 推理阶段 利用K个模型进行预测并通过多数投票集成 [33] - 该算法性能与基础模型规模强相关 对于经过预训练的模型 在参数量达到约1.5B时 RandOpt的性能提升开始迎来爆发 [35] - 在消耗相同训练FLOPs的前提下 RandOpt(通常设置K=50)在数学推理、代码生成、创意写作及化学任务上 绝大多数设定中追平甚至超越了PPO、GRPO和进化策略等标准后训练方法 [38] - 在训练时间上具有颠覆性优势 传统方法需数百个序列化更新步骤 时间复杂度O(T) 而RandOpt为O(1) 例如在一组200个GH200 GPU集群上训练OLMo-3-7B-Instruct模型 仅需3.2分钟即可完成并在Countdown任务上达到70%准确率 [38] 实验验证与应用拓展 - 错误归因分解表明 RandOpt的性能提升中 有19.0%来源于修正输出格式的“格式丛林” 更有12.3%来源于真正掌握正确推理的“推理丛林” 证明了神经丛林中存在掌握实质性技能的专家 [41] - 该方法同样适用于视觉语言模型 在冻结视觉编码器、仅扰动语言模型权重的情况下 RandOpt将3B参数的Qwen2.5-VL-Instruct模型在GQA视觉推理数据集上的准确率提升了12.4% [39] - “丛林”现象在文本到图像生成领域(如Stable Diffusion XL模型)中表现为“色彩丛林” 某些参数空间区域会优先生成具有特定调色板或视觉风格的图像 [41] - 为克服推理时需K次前向传播的部署劣势 研究者提出蒸馏方案 利用RandOpt筛选出的Top-50模型生成数据对基础模型进行两轮监督微调 在GSM8K上 蒸馏后的单一模型性能(84.3%)接近庞大集成模型(87.1%) 且计算成本仅占RandOpt训练成本的约2% [43]
CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍
机器之心· 2026-03-15 14:00
背景与动机 - 随着高分辨率图像与长视频处理需求爆发,大型视觉语言模型所需处理的视觉Token数量急剧膨胀,推理效率成为核心瓶颈[4] - 现有基于注意力权重的Token压缩方法存在两个致命缺陷:一是存在位置偏差,倾向于机械保留序列末尾的Token,导致关键的前期Token被丢弃,加剧多模态幻觉[5];二是与FlashAttention等高效算子存在根本性不兼容[7] 核心发现 - **发现一:注意力方法存在系统性末端偏置**。在LLaVA-1.5-7B和Qwen2-VL-7B上的对比显示,注意力方法的Token保留概率曲线呈单调递增阶梯形状,末端Token保留率高达80%~100%,前端仅10%~30%,而L2 Norm变化量评估方法则呈现近似均匀分布[8] - **发现二:变化量高的Token天然对应语义关键区域**。在百事可乐瓶识别、球衣号码识别等样本中,L1 Norm、L2 Norm和余弦相似度三种变化量指标均在答案相关区域出现显著峰值,表明变化量是衡量视觉Token重要性的鲁棒内在属性,其中L2 Norm综合性能最优[12] 解决方案:V²Drop - V²Drop采用多阶段渐进式剪枝策略实现高效无偏Token压缩,包含三步:变化量计算、Token排序与选择、渐进式压缩[15][16][17] - 变化量计算阶段,在每个预定义剪枝层计算每个视觉Token与上一层表示的L2距离作为重要性得分,额外开销仅为单层注意力计算量的0.022%[15] - 渐进式压缩在浅层、中层、深层三阶段依次执行剪枝,形成M → Ka → Kb → Kc渐进压缩路径,消融实验证明其比一次性剪枝在POPE指标上高9.3%、在MME指标上高5.9%[18] 理论保证 - 通过一阶Taylor展开证明,Token的变化量幅度与其对模型输出的影响正相关,从理论上验证了丢弃低变化量Token能最小化输出扰动的核心假设[21] - 模型架构的三大属性(残差连接、Layer Norm、平滑激活函数)共同保证了该理论假设的合理性[21] 实验结果:图像理解 - 在LLaVA-1.5-7B模型上,压缩66.7%的Token(保留192个)时,V²Drop综合性能达到97.6%,超越次优方法PDrop的96.0%[23] - 在Qwen2-VL-7B模型的高分辨率场景中,在66.7%和77.8%两档压缩率下,V²Drop均全面超越FastV和DART方法,尤其在POPE幻觉抑制指标上表现突出[23] - 根据表1数据,在LLaVA-1.5-7B上保留192个Token时,V²Drop在POPE指标上达到85.1,在MME指标上达到1826,平均性能为97.6%[24] 实验结果:视频理解 - 在LLaVA-OV-7B模型上,V²Drop仅保留25%的Token时,综合性能即达到98.6%,超越保留30% Token的DyCoke方法(97.7%)[25] - 在Qwen2-VL-7B模型上,仅保留20% Token时,V²Drop综合性能达到93.3%,其中在MVBench基准上以62.1分大幅领先DART的58.9分和FastV的50.9分[25] - 根据表4数据,在LLaVA-OV-7B上保留25% Token时,V²Drop在MVBench Overall指标上达到56.4,在VideoMME Long指标上达到49.6,平均性能为98.6%[26] 实验结果:效率分析 - 在图文理解任务(LLaVA-1.5-7B)中,V²Drop使LLM生成延迟降低31.5%,吞吐量提升至9.01 items/s(提升1.26倍),峰值显存下降3.3%[27] - 在视频理解任务(LLaVA-OV-7B)中,V²Drop使LLM生成延迟大幅削减74.2%,吞吐量提升1.38倍,峰值显存降低7.8%[27] - 与之形成对比,SparseVLM、FastV、PDrop在视频场景下峰值显存分别暴增54.8%、39.2%和37.8%,而V²Drop无需计算注意力矩阵,实现了加速与节存的双重收益[28] - 根据表5数据,在LLaVA-OV-7B视频任务中,V²Drop的LLM生成延迟为193.8秒,比基准降低74.2%,总延迟为23分13秒,降低27.5%[29] 结论 - V²Drop为视觉语言模型的推理加速开辟了一条全新路径,其核心洞察是视觉Token在LLM各层间的变化量与其任务相关性高度吻合,且这一规律与具体任务无关[31] - 该方法以变化量为核心评估信号,构建了一套轻量、渐进、与高效算子完全兼容的Token压缩框架,无需修改模型权重,无需访问注意力矩阵,即插即用[31] - 在图像与视频理解两条赛道上,V²Drop均实现了当前最优的性能-效率权衡[31]
全新线性注意力范式!哈工深张正团队提出模长感知线性注意力!显存直降92.3%!
机器之心· 2026-03-15 11:30
研究背景与核心问题 - Transformer模型在计算机视觉领域面临高分辨率图像和超长序列任务带来的算力与显存瓶颈,标准Softmax注意力的二次复杂度导致70K+token的超分辨率任务显存爆炸,推理延迟高[2] - 线性注意力通过核函数重构实现了线性复杂度,解决了算力开销,但始终存在性能退化问题,无法达到原生Softmax注意力的精度水平[3] 核心技术创新:NaLaFormer框架 - 研究团队提出NaLaFormer框架,通过模长-方向分解精准定位并解决了线性注意力的两大核心缺陷,在保持线性复杂度的同时实现了视觉任务精度的全面超越[3] - 在70K+token超分任务中实现92.3%的峰值显存降低,为线性注意力在视觉领域的落地开辟了新范式[3] - 系统性揭示了线性注意力性能不佳的两大根源:1) Query向量的模长在归一化中被抵消,导致注意力分布尖峰性丢失;2) 非负性约束导致不可逆的信息损失[6][8] 技术方案细节 - 针对Query Norm被抵消的问题,设计了Query-Norm-Aware特征映射,将Query Norm显式编码进核函数,通过锐化函数动态调控注意力熵,复刻了Softmax注意力中“Query模长越大,注意力分布越尖锐”的核心特性[10][13][14] - 针对非负性约束的信息丢失问题,提出了余弦方向相似度机制,基于几何变换在保证非负性的同时完整保留内积的细粒度信息,避免了传统激活函数带来的信息损失[15][16] - 构建了统一的NaLaFormer架构,将模长感知线性注意力模块与门控架构深度融合,实现了对视觉Transformer的直接替换[17][20] 性能表现:图像分类 - 在ImageNet-1K图像分类任务上,NaLaFormer实现了对现有线性注意力模型的全面超越[22] - 轻量级NaLaFormer-XT仅8M参数量达到79.1% Top-1精度,同量级下较基线最高提升7.5%[22] - 大规模NaLaFormer-L以95M参数量实现85.7% Top-1精度,刷新了高效视觉模型在该基准上的纪录[22] 性能表现:密集预测任务 - 在COCO目标检测任务中,NaLaFormer-T基于Mask R-CNN框架实现47.6% APb、43.0%分割APm,全面超越同量级经典视觉Transformer骨干[24] - 在ADE20K语义分割任务中,较同量级基线最高提升4.7% mIoU[24] - 在CityScapes城市场景分割任务中以82.5% mIoU领跑同规模模型[24] 性能表现:超分辨率任务 - 在70K+token的高分辨率超分任务中,NaLaFormer的线性复杂度优势被彻底释放[26] - 在Urban100 4×超分任务中实现36.4%的推理延迟降低,峰值显存从69G降至5.3G,降幅高达92.3%[26][27] 性能表现:长序列与跨模态能力 - 在长序列建模基准Long Range Arena上,NaLaFormer实现61.2%的平均精度,刷新了线性注意力模型的SOTA纪录,同时保持827.7的高吞吐量与极低显存占用[29] - 从零训练340M参数量的语言模型,在常识推理任务中,NaLaFormer平均得分超越Mamba、RetNet、GLA等强基线[29] 性能表现:扩散生成模型 - 在扩散Transformer框架中,将原始注意力模块替换为NaLaFormer后,生成质量稳步提升[31] - NaLaDiT相比原版DiT,FID从68.40降至61.64,IS提升至23.24[31] - NaLaSiT在SiT变体中的表现,FID低至53.08,sFID 8.94,IS 27.63[31][32]
「龙虾热」后,OpenClaw 会是又一个泡沫吗?
机器之心· 2026-03-15 11:30
OpenClaw的「龙虾热」正在往哪些方向蔓延? - OpenClaw是一个开源AI Agent框架,发布一周内吸引了200万访问并获得超过10万GitHub星标,截至2026年3月13日,其GitHub仓库星标已达58.8万[5] - 该项目的热度已从技术社区外溢至产品和产业层面,中国科技公司推出了大量「类龙虾」产品和服务,通过降低技术门槛(如提供一键部署、云端托管)并嵌入微信、企微、飞书、钉钉等高流量入口来争夺用户并推广自身云服务与Agent平台[6] - OpenClaw的应用边界正从软件向AI硬件延伸,已出现机器人、机械臂、AI眼镜和AI耳机等接入形态,使其从桌面执行器走向物理世界中的Agent入口[6] - 地方政府(如深圳、无锡、合肥、苏州)的扶持政策进一步放大了产业影响,部分区域提出最高1000万元人民币的补贴、融资支持、免费算力和办公优惠,将OpenClaw列为重要AI工具[6] - 随着热度上升,安全风险争议同步积累,安全研究机构Bitsight在2月的分析中指出,已观察到超过3万个暴露在公网的OpenClaw实例,其风险可能沿已接入的服务和数据放大[7] OpenClaw正在被改造成何种产品? - 进入2026年3月后,国内科技企业将OpenClaw快速复刻并调整为面向不同用户、入口和终端的产品形态,一批「类龙虾」服务开始涌现[7] - 这些产品将原本偏开发者、需自部署的框架压缩为更低门槛的产品形态,例如智谱的AutoClaw支持本地一键部署,月之暗面的Kimi Claw和MiniMax的MaxClaw支持云端托管,用户可通过浏览器、飞书、QQ、企微等入口调用Agent能力[7] 缺陷和风险愈发暴露下,OpenClaw会是又一个短期泡沫吗? - 行业关注焦点正从项目热度转向其产品价值、落地前景以及部署门槛、token成本、真实可用性和安全风险等实际问题[1] - 随着一键部署成为标配,业界开始讨论OpenClaw在降低技术门槛后,其作为「能在系统里持续干活的个人智能体」的核心价值还剩什么[4][5]
ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案
机器之心· 2026-03-15 09:20
多模态大模型情感智能的现状与挑战 - 多模态大模型(MLLMs)正在快速发展,但能否真正理解人类情绪仍是一个关键问题[2] - 人类情绪通过面部表情、语音语调、语言内容等多模态信息共同表达,仅依赖单一信息来源难以准确判断[2] - 情感智能正成为衡量多模态大模型能力的重要指标,但学界缺乏系统性的评测框架[2] MME-Emotion评测基准的提出 - 香港中文大学与阿里通义实验室团队提出了名为MME-Emotion的综合评测基准,该工作已被ICLR 2026接收[3] - 该基准旨在系统评估多模态大模型的情感智能水平,弥补现有评测的不足[2][3] MME-Emotion基准的核心特点 - 该基准是当前规模最大的多模态情感智能评测基准之一,包含约6500段视频片段及对应问答数据[5] - 覆盖27类真实场景,并设计了8类不同的情感任务,强调真实环境中的多模态信息融合能力[5] - 任务类型包括实验室/真实场景/噪声条件下的情绪识别、细粒度/多标签情绪识别、情感倾向分析、细粒度情感分析及意图识别[8] - 与以往工作相比,该基准同时评测情绪识别能力和情绪推理能力,要求模型不仅给出标签,还需指出支撑判断的线索[8] 统一的评测指标体系 - MME-Emotion提出了一套统一的评测指标体系,包括情绪识别得分、推理得分以及综合思维链得分[10] - 识别得分衡量情绪预测准确率,推理得分衡量推理过程的合理性,综合得分则同时反映识别与推理能力[10] - 研究团队设计了一套基于多智能体系统的自动评测流程,以支持大规模自动评测,并验证了自动评分与人工评分具有较高一致性[10][11] 主流模型评测结果分析 - 研究团队在MME-Emotion基准上评测了20个当前主流多模态大模型,包括开源和闭源模型[13] - 实验结果显示,即使是最先进的模型,在情感智能方面仍存在明显不足[13] - 表现最好的模型情绪识别得分不到40%,综合思维链得分也只有约56%,各模型在情绪识别任务上的整体平均表现仍处于较低水平[13] - 评测结果表明,多模态大模型在情感理解方面仍是一个具有挑战性的方向[13] 当前模型存在的典型问题 - **细粒度视觉理解能力不足**:模型难以区分相似情绪(如恐惧与惊讶),源于对面部表情和细微动作变化理解不足[14] - **多模态信息融合能力有限**:一些模型在需要同时结合语音和视觉信息时出现性能下降,说明处理多模态情感线索存在困难[15] - **推理能力与情绪识别能力相关**:能够给出更完整推理过程的模型,其整体情感智能表现也更好,表明深入推理可能是提升情感智能的重要路径[16] 未来发展方向与行业价值 - 未来多模态情感智能的发展可能依赖几个关键方向:更高精度的视觉细节建模、更有效的语音与视觉信息融合方法、能解释情绪产生原因的推理机制[16] - 随着多模态大模型发展,情感智能有望成为人工智能系统的重要能力,在教育、人机交互和医疗辅助等应用场景中具有重要价值[16] - MME-Emotion的发布为多模态情感智能研究提供了统一的评测标准和清晰的参考基线[17]
OpenClaw带火AI记忆,DeepMind用混合记忆把3D重建拉到近2万帧
机器之心· 2026-03-15 09:20
文章核心观点 - 谷歌DeepMind与加州大学伯克利分校联合提出了一种名为LoGeR的新型前馈3D重建架构,该架构通过创新的混合记忆模块,成功解决了现有模型在处理长序列视频(如数千至两万帧)时面临的上下文壁垒和数据壁垒问题,实现了在无需后期优化的情况下,将密集3D重建扩展到极长序列,并在多个基准测试中性能显著超越现有方法[2][4][24][25] 技术背景与现有挑战 - 现有前馈3D重建模型(如DUSt3R、MonST3R、VGGT)依赖短时上下文窗口(几十到一百多帧),难以有效建模长序列(数千到数万帧)中的依赖关系[1] - 主要障碍包括架构上双向注意力的二次计算复杂度限制,以及训练数据主要来自短时上下文“气泡”,导致模型无法在推理时整合长距离信息[2] LoGeR架构创新 - 核心创新是提出一个**基于学习的混合记忆模块**,该系统结合了参数化的测试时训练记忆模块和非参数化的滑动窗口注意力机制[2] - **测试时训练记忆模块**:用于锚定全局坐标框架,防止尺度漂移,通过概念层面压缩重要但冗余的几何信息来实现长距离、有损的信息传播[13] - **滑动窗口注意力机制**:关注相邻块的帧,建立无损的信息传递通道,确保跨块边界的细粒度几何对齐,其计算和内存效率高,仅在网络部分深度(四层)插入[14][15] - 两种机制互补:TTT提供可扩展的长距离记忆,SWA确保相邻块间的高精度一致性[16] 训练方法与数据策略 - 为克服“数据壁垒”,研究构建了训练数据集,重点增加了大规模场景数据集(如TartanAirV2)的比例,为学习有效的几何压缩提供必要的长时信号[19] - 采用**渐进式课程学习策略**稳定训练:从48帧序列分4块开始,逐步增加块密度至12块,最后利用H200 GPU将上下文长度扩展到128帧并逐步增加至20块[21] - LoGeR模型从第一阶段的模型开始,集成了前馈对齐步骤,并在后续课程中进行微调[22] 性能评估结果 - 在KITTI基准测试中,LoGeR将绝对轨迹误差降低了**超过74%**,其平均性能甚至超过了当前最强的基于优化的方法VGGT-Long,优势达到**32.5%**[4][24] - 在开环场景(如KITTI序列01、03、04、08和10)中,LoGeR无需依赖回环检测即可有效抑制长序列中累积的漂移误差[24] - 在重新设计的VBR数据集(包含最多19000帧的序列)上,LoGeR明显超越先前的前馈方法,能在长达2万帧的超长序列中保持稳定的全局尺度,而基线方法出现明显尺度漂移[4][25] - 在短序列评测(如7-Scenes、ScanNetV2和TUM-Dynamics数据集)中,LoGeR及其基线方法在3D重建质量和相机位姿估计精度上均显著优于现有亚二次复杂度方法[27][30]
arXiv变天:将脱离康奈尔大学独立,招聘CEO,网友:以后还能白嫖吗?
机器之心· 2026-03-15 09:20
公司转型与治理结构变化 - 公司正从与康奈尔大学长达数十年的合作中独立出来,转型为独立的非营利组织,这标志着其发展进入全新阶段[1][2] - 公司正在招聘首席执行官,预计薪资范围在30万美元左右,具体将根据知识、技能和经验调整[2] - 新任首席执行官职责包括战略规划、财务管理、技术基础设施及人员监督,并需与康奈尔大学和西蒙斯基金会的董事会代表合作确立组织独立性[16] 公司历史与发展历程 - 公司始建于1991年8月,最初是创始人Paul Ginsparg在洛斯阿拉莫斯实验室编写的一组用于自动化分发预印本的shell脚本[4] - 公司诞生是为了解决物理学家通过邮件列表交换预印本导致邮箱爆满的痛点,最初预计每年接收约100篇高能物理论文,但上线首月就收到近百篇投稿[6] - 2001年,公司随创始人迁至康奈尔大学图书馆,此后经历了爆炸式增长:2008年收录论文达50万篇,2014年底达100万篇,2021年底超过200万篇[9][11] - 截至目前,平台累计收录论文总数已超过270万篇,涵盖八个学科领域中的150多个类别,已提供320亿次下载[11] 公司运营与技术状况 - 公司目前的年度运营预算约为600万美元,拥有约27名员工,主要在美国远程办公,与志愿者一起服务超过500万的月度用户[16] - 2022年,公司获得西蒙斯基金会1000万美元资助,用于大规模技术升级和团队扩张,并将代码库从Perl重构为Python[11] - 公司长期面临技术债务问题,创始人早期的编程风格导致系统缺乏可维护性,尽管已开始重构,但历史积弊与规模压力仍在[13] 行业环境与核心挑战 - 公司面临AI投稿井喷带来的巨大挑战,2023年以来计算机科学论文提交量激增,低质量稿件涌来,依赖的志愿者审核体系已不堪重负[11] - 公司在开放与质量控制之间存在永恒博弈,面临来自“纵容垃圾科学泛滥”和“审查合格研究”的双向指责,审核政策进退维谷[12] - 2023年那篇最终被证伪的“室温超导”论文,凸显了公司快速传播机制既能加速真理也能放大谬误的困境[12] 市场反应与未来展望 - 学术界和开发者社区对公司独立转型普遍感到忧虑,担心其为了维持生计会引入高级付费功能和赞助内容[21] - 市场担忧独立后的高昂运营成本可能通过广告、收费墙或机构订阅费的形式转嫁给学术界[23] - 部分声音质疑管理一个“上传和下载PDF文件的网站”是否需要高薪聘请首席执行官,但也有行业人士认为在纽约主导科技非营利组织的融资、法律等事务,该薪资并不算高[26] - 作为AI、物理、数学等硬核科技圈赖以生存的“基础设施”,公司的此次转型将深远影响未来学术交流的走向[28]
小模型读书大模型思考:上海AI Lab提出新知识推理解耦方法DRIFT,高效且「防越狱」
机器之心· 2026-03-14 14:33
本文主要完成单位为上海人工智能实验室,主要作者谢文轩、谭鑫、陆超超、胡侠等,通讯作者为实验室青年研究员汪旭鸿。 当长上下文成为负担:我们是否真的需要「把一切都塞进推理模型」? 当前,随着大家对大模型推理能力要求的提升,输入上下文也在不断变长,1M tokens 及以上的上下文窗口正逐渐成为现实,但「读得更长」一定会带来推理提升 吗? 在现实应用中,情况往往并不理想。当推理模型直接处理超长原始文本时,瓶颈往往不再来自「不会推理」,而是来自读不完、读不动、读不准: 这也引出了一个更本质的问题: 知识获取(reading)与逻辑推理(reasoning),是否真的必须由同一个模型完成? 复杂推理或许需要大模型,但从海量信息中获取知识未必如此。 为解决这一问题,来自 上海人工智能实验室与复旦大学的研究团队 提出了 DRIFT:一种将 知识获取 与 推理 明确解耦的长上下文推理框架。 DRIFT 采用双模型架构:轻量知识模型负责读取超长文档,并将与当前任务强相关的关键信息压缩成高密度隐空间表示;推理模型直接利用这些表示进行推理, 无需处理庞杂原文。 实验结果表明:DRIFT 显著提升推理效率,并在高压缩比设置下仍保持甚 ...
不用任何人类语言训练,大模型反而更强了?
机器之心· 2026-03-14 14:33
研究核心观点 - 提出一种全新的语言模型训练范式,即使用完全非语言的、由神经细胞自动机生成的合成数据进行“预预训练”,然后再在自然语言数据上预训练和微调,这挑战了“语言是智能训练唯一或最佳起点”的传统观念[1][6][7] - 该方法的训练效果显著,在相同token预算下,使用NCA数据预预训练的模型在语言建模性能、训练收敛速度及下游推理任务上均优于从零开始训练、使用自然语言或其他合成数据预预训练的基线模型[2][3][14][18] - 研究揭示了数据“结构”而非“语义”对于训练智能系统的重要性,NCA数据因其丰富的时空结构和可控的规则生成,能更高效地教会模型上下文学习和规则推断等核心能力,这种能力可迁移至语言任务[6][8][12][34] 研究方法与数据 - 采用神经细胞自动机作为合成数据生成器,NCA通过神经网络定义网格系统的局部演化规则,能够生成具有丰富长程时空模式、且统计特性与自然语言相似的数据[8][10] - NCA演化轨迹被离散化为序列后,输入标准Transformer模型进行下一个token预测训练,模型需从上下文中推断出每条序列背后独特的潜在演化规则,这直接锻炼了其上下文学习能力[12][17][39] - 数据规模对比显示,仅使用1.64亿tokens的NCA数据预预训练的模型,其性能优于使用16亿tokens(约10倍数据量)自然语言数据预预训练的模型,突显了数据质量与结构复杂度的重要性[22][23][24][27] 性能表现与优势 - 在语言建模任务上,NCA预预训练模型将最终困惑度降低约5%,并将训练收敛速度加快40%(即快1.4倍)[2][38] - 性能提升具有广泛迁移性,在网页文本、数学和代码等下游任务中均得到体现,模型展现出更强的推理能力[14][21] - 该方法提供了超越“一刀切”训练方式的新维度,可通过调节NCA规则的复杂度来定制化训练,以更好地匹配特定目标领域[34][42][43][44] 机制分析与洞见 - 注意力层是能力迁移的核心载体,承载了最具可迁移性的计算原语,而MLP层更多编码领域特定知识[34][40] - NCA数据因缺乏语义捷径,迫使模型在每个token上进行规则推断,这更高效地促成了如“归纳头”等注意力电路的形成,从而构建出可迁移的通用表示能力[36][37][39][40][41] - 研究指出,在数据规模较小时,自然语言训练主要让模型学习浅层统计模式,而NCA数据因其每个token携带的高多样性函数结构,提供了更纯粹、更高效的训练信号[29][31][32][35]