Workflow
机器之心
icon
搜索文档
刚刚,Meta宣布正式成立「超级智能实验室」!11人豪华团队首曝光
机器之心· 2025-07-01 07:48
机器之心报道 编辑:杜伟 该部门将由数据标注初创公司 Scale AI 前 CEO Alexandr Wang 领导,并担任公司首席人工智能官。同时, 扎克伯克还首次 曝光了 11 位从 OpenAI、Anthropic、谷歌 DeepMind 那里挖来的顶尖人才 。 扎克伯格表示,MSL 将吸纳公司的各个团队,致力于开发 Llama 开源系列大模型、相关产品和基础人工智 能研究项目等。 以下是扎克伯克完整的备忘录内容: 随着人工智能进步的加速,发展超级智能已指日可待。我相信这将是人类新纪元的开端,我本人将全力以 赴,确保 Meta 引领这一进程。今天,我想详细介绍一下我们如何调整组织架构,以实现我们的愿景:「为 每个人打造专属的超级智能」。 我们将把整个组织命名为「Meta 超级智能实验室」(Meta Superintelligence Labs,简称 MSL)。 这包括我 们所有的基础研究、产品和 FAIR 团队,以及一个新成立的专注于开发下一代模型的实验室 。 Alexandr Wang 已加入 Meta,担任我们的首席人工智能官 (Chief AI officer) 并领导 MSL。Alexandr ...
会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
机器之心· 2025-06-30 18:23
图 1 :指代检测的应用场景实例 最近, IDEA 提出全新解决方案 Rex-Thinker ,首次将人类思维中的 "逻辑推理链" 引入视觉指代任务,让 AI 像人一样分步思考、验证证据,在权威测评中不仅准 确率显著提升,更展现出强大的 "知之为知之" 能力! Caption : Rex-Thinker 的思考过程 在日常生活中,我们常通过语言描述寻找特定物体:"穿蓝衬衫的人""桌子左边的杯子"。如何让 AI 精准理解这类指令并定位目标,一直是计算机视觉的核心挑 战。现有方法常被两大问题困扰: 决策过程不透明 ("黑箱" 预测)和 拒识能力不足 (对不存在物体输出错误结果)。 Demo论文地址: https://arxiv.org/abs/2506.04034 突破在哪?让 AI 学会 "思考三步走" 传统模型直接输出目标检测框,而 Rex-Thinker 创新性地构建了可解释的推理框架: 1. 规划 (Planning) 拆解语言指令:"找到坐在乌龟上的人" → 分解为 "第一步找到乌龟 → 第二步判断每个人是否坐在乌龟上" 2. 验证 (Action )对每个候选目标(如 "Person 1""Perso ...
95后,边改造业务边发AI顶会论文,是怎样的体验?
机器之心· 2025-06-30 18:23
机器之心报道 编辑:杜伟 在 AI 时代的浪潮下,顶尖人才影响力空前高涨,其地位更被市场推升至了前所未有的高度。无论是谷歌 Transformer 论文八子,还是从 OpenAI 出走的科学家,他 们要么自立门户,拿到亿级投资、百亿级估值,或者跳槽到他处,凭己之力拉近企业间的技术代差甚至影响竞争格局。 顶尖人才的供给增长速度似乎跟不上互联网大厂、初创公司急剧膨胀的需求,因此拥有极强议价能力。企业为了招揽这些具备突破性能力、能引领方向或解决关 键瓶颈的人才,使出了浑身解数。 这场看起来一时不会结束的人才军备竞赛,在国内同样呈现出了高强度、系统性、全球化的竞争态势。 互联网大厂纷纷放大招,京东 TGT 顶尖青年技术天才计划、字节 Top Seed 人才计划、腾讯青云计划、百度文心・新星计划…… 各种行业 Top 薪酬甚至薪酬不设 上限,钞能力拉满,誓要将顶尖人才收入麾下。 企业与人才双赢的实现,需要" 双向奔赴 "。 最近,一场聚集了产业技术大佬和高校技术天才的线下技术沙龙上,我们听到了他们对于前沿技术方向的深度探讨和双方对技术人才发展共同的思考和期待。 京东技术沙龙零售专场 这是今年 5 月全球启动的 "京东技 ...
只用2700万参数,这个推理模型超越了DeepSeek和Claude
机器之心· 2025-06-30 18:23
大模型架构变革 - 当前大语言模型(LLM)采用思维链(CoT)技术存在任务分解复杂、数据需求大、高延迟等问题 [2] - 分层推理模型(HRM)通过循环架构实现高计算深度,仅需2700万参数和1000个训练样本即可在复杂推理任务中表现卓越 [3][4] - HRM无需预训练或CoT数据,在数独、迷宫路径查找等任务中达到近乎完美性能,并在ARC-AGI基准上超越更大模型 [5][7] HRM设计原理 - 核心灵感源于大脑分层处理和多时间尺度机制:高级模块负责抽象规划(慢速),低级模块处理细节计算(快速) [12][13] - 采用四个可学习组件(输入网络、高低级循环模块、输出网络)实现层级收敛性,H模块稳定收敛,L模块周期性重置 [14][15][17] - 通过一步梯度近似法(O(1)内存)和深度监督机制优化训练效率,避免传统BPTT算法的深层信用分配难题 [19][20][23] 性能与实验验证 - 在ARC-AGI、数独、迷宫任务中,HRM表现出类似深度优先搜索和渐进优化的底层推理算法 [31] - 训练后高层模块与低层模块自然涌现维度层级分化,而非架构固有特性 [33][34] - 具备图灵完备性,可模拟任何图灵机,通过自适应计算时间(ACT)动态调整资源分配 [35][36][27] 技术对比优势 - 相比CoT模型,HRM在符号树搜索任务(如Sudoku-Extreme)中准确率接近100%,而标准Transformer增加深度无效 [10] - 强化学习(RL)需依赖CoT能力且数据效率低,HRM通过密集梯度反馈实现连续空间运算,生物合理性更高 [37][39] - 推理阶段仅需调整计算限制参数Mmax即可扩展性能,无需重新训练 [28]
首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!
机器之心· 2025-06-30 17:49
基础语言模型研究 - 上海创智学院与上海交通大学的研究论文揭示了Llama和Qwen基础语言模型在强化学习(RL)训练中的性能差异,并提出中期训练(mid-training)策略成功将Llama改造成高度适配RL的推理基础模型,显著缩小与Qwen的性能差距[1][7] - 研究团队通过大规模可控实验(每次训练20B tokens)发现数学语料质量、QA数据分布、指令数据注入和中期训练规模是影响RL效果的关键因素[14][16] - 论文提出的OctoThinker模型在数学推理基准测试中相比原始Llama实现10%-20%性能提升,例如1B模型在GSM8K从7.66提升至44.88,MATH500从4.60提升至27.80[31][32] 数据集开发 - 团队构建了MegaMath-Web-Pro-Max高质量数学语料库,规模达MegaMath-Web-Pro的5.5倍,通过Llama-3.1-70B-instruct标注和fasttext分类器筛选,选择0.4召回阈值平衡质量与数量[17][19][21][25] - 该数据集被MIT、EPFL等顶尖高校和Apple、Microsoft等企业广泛采用,显示学术界与工业界的高度重视[3] - 对比实验显示使用MegaMath-Web-Pro的模型RL性能明显优于FineMath-4plus,证实高质量语料对基础模型和RL训练的关键作用[22] 模型训练方法 - OctoThinker采用两阶段训练方案:第一阶段用200B tokens构建强推理基座(OctoThinker-Base-Stable),第二阶段通过20B tokens分支训练形成短链、长链和混合链三大专业化分支[27][29] - 分支训练采用学习率衰减策略(余弦衰减至初始10%),短链分支含30%竞赛短推理QA,长链分支含30%反思型长推理QA,混合分支平衡两者[27][29] - 3B规模的OctoThinker-Long-Zero经RL训练后性能媲美Qwen2.5-3B,证明该方法有效提升Llama的RL兼容性[35] 行业影响 - Meta AI科学家Wenting Zhao等专家高度评价该研究解决了mid-training中的关键谜题,Pleias AI Lab的独立实验验证了方法的普适性[2] - 开源模型和数据集在GitHub和HuggingFace发布,代码仓库和论文获得广泛关注[5] - 未来研究方向包括精炼数学语料库、开发无需蒸馏的RL友好型基础模型、拓展工具集成推理等新分支[38]
微软推出深度视频探索智能体,登顶多个长视频理解基准
机器之心· 2025-06-30 11:18
核心观点 - 大型语言模型(LLMs)和视觉-语言模型(VLMs)在处理数小时长视频时仍存在局限性[1] - 提出新型智能体Deep Video Discovery(DVD),通过分段处理视频并利用LLM推理能力实现自主规划,在LVBench上达到74.2%准确率,超越现有技术[3] - DVD采用多粒度视频数据库和搜索工具集,通过LLM协调实现自主搜索和回答[7][9] 技术架构 多粒度视频数据库构建 - 将超长视频分割为5秒片段,提取全局/片段/帧三级信息,包括摘要、字幕、嵌入向量等[10] 智能体搜索工具集 - 全局浏览工具:获取高层上下文和视频全局摘要[11] - 片段搜索工具:通过语义检索返回相关片段及其时间范围[12] - 帧检查工具:从像素级信息提取细节并提供视觉问答[13] 性能表现 - 在LVBench上:DVD(74.2%)显著超越MR Video(60.8%)和VCA(41.3%)[16] - 辅助转录后准确率提升至76.0%[17] - 各维度表现:事件推理(73.4%)、知识推理(80.4%)、时序理解(72.3%)等[16] 比较分析 - 商业VLM对比:OpenAI o3(57.1%)优于GPT-4o(48.9%)和Gemini-2.0(48.6%)[16] - 开源VLM对比:Qwen2.5-VL-72B(47.7%)低于DVD[16] - 行为分析显示GPT-4o存在过早结束推理的问题[18]
刚刚,OpenAI全员放假一周!被Meta高薪连挖8人「偷家」,真麻了
机器之心· 2025-06-30 11:18
机器之心报道 机器之心编辑部 面对 Meta 一亿美元签字费挖人的条件,OpenAI 的回应是…… 随着高级研究人员接连被竞争对手挖走,OpenAI 高管向团队成员保证,公司不会「袖手旁观」。据《连线》杂志报道,上周六,OpenAI 首席研究官 Mark Chen 向员工发出了一份措辞强硬的备忘录,承诺要在顶尖研究人才争夺战中与 Meta 进行正面交锋。 这一次,《连线》甚至以 「OpenAI 领导层回应 Meta 挖角:有人闯进了我们家」为题进行了专题报道。 生成式 AI 竞争如火如荼的当口, OpenAI 却突然宣布本周全员放假,还是直接放一周。 这当然不是因为 GPT-5 已经造好,或是竞争对手全被打败了,而是因为 OpenAI 被挖人挖麻了。 在那份备忘录中,Mark Chen 表示:「我现在有一种强烈的预感,就像有人闯入我们家偷了东西一样。请相信,我们并没有袖手旁观。」 就在几天前,Meta 首席执行官马克・扎克伯格成功从 OpenAI 招募了四名高级研究人员加入 Meta 的「超级智能实验室」。而更早几天,Meta 更是将 OpenAI 苏黎 世办公室的三位研究者一锅端走。详情可参阅我们之前的两篇 ...
用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化
机器之心· 2025-06-30 11:18
视觉生成模型的注意力优化 - 视觉生成模型的输入序列长度可达10K-100K,Attention操作占据模型开销的60-80%,成为主要性能瓶颈 [1] - 现有稀疏注意力与低比特量化方法在低稠密度(<50%)和低比特(INT8/INT4)时面临显著性能损失 [1] - 视觉生成任务的注意力模式具有"多样且分散"的特点,这是优化面临的关键挑战 [3][11] 技术方案与创新点 - 提出Token重排方案将多样分散的注意力模式统一为硬件友好的块状模式 [14][19] - 针对每个注意力头选择最优的Token重排方式,共6种可能的置换方式 [24] - 静态稀疏方案在50%稠密度下取得1.73x加速,且不引入额外开销 [55][56] - 量化方案可将PV计算从FP8降至INT4而无精度损失 [46] 性能表现 - 在50%稀疏比下,PAROAttention的CLIPSIM达0.203,与FP16全精度相当 [50] - 20%稀疏比时仍能保持良好生成质量,优于基线50%稀疏比的效果 [45] - 最激进优化方案(50%+INT4)实现近10倍Attention延迟优化 [49] - 量化方案在INT4下PSNR达24.16,优于SageAttentionV2的24.46 [50][56] 系统优化 - 采用算子融合技术将Token重排的额外开销降至可忽略程度 [47] - 通过预取策略将稀疏掩码的显存开销从GB级降至MB级 [47] - 方案完全兼容FlashAttention,无需特殊CUDA Kernel优化 [43] 应用前景 - 方法可启发训练方法优化、图像参数化方式和3D空间位置编码设计 [58] - 技术路线不仅限于推理优化,可推动具有更好归纳偏置的视觉基座模型构建 [58]
打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力
机器之心· 2025-06-29 12:23
视觉语言模型的长上下文建模研究 - 视觉语言模型(VLM)在视觉问答和图像描述等任务表现卓越,但在长视频理解和检索等长上下文任务中仍有不足 [2] - 旋转位置编码(RoPE)在大语言模型中提升长度泛化能力,但如何有效扩展到多模态领域仍是开放问题 [2] - CMU与小红书团队首次提出多模态RoPE扩展策略的理论评估框架,发现保留所有频率会限制长上下文语义建模 [2][5] 现有方法的局限性 - 现有RoPE频率分配策略无法保证"语义偏好性质",即语义相近的Query-Key对应获得更高注意力 [7] - 时间维度使用高频率建模会导致长上下文中语义相近对的注意力分数低于无关对 [8] - 即使采用最低频率建模时间维度,在超过临界长度Lc=π/(2θmin)+1时仍会破坏语义偏好 [14][15] 混合位置编码(HoPE)创新 - 提出混合频率分配策略:时间维度采用无位置编码(NoPE),空间维度保留多模态位置编码 [17] - 动态缩放策略根据视频内容(如纪录片/动作片)调整时间编码缩放因子,增强对不同视频速度的鲁棒性 [20] - 理论证明HoPE能在任意长度下保持语义偏好性质,优于其他频率分配方案 [17][18] 实验验证 - 在长视频理解和检索多个benchmark中,HoPE在不同模型尺寸和测试长度下均达到最优表现 [22] - 论文与代码已公开在arXiv和GitHub平台,标题为《HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models》 [6]
盘一盘,2017年Transformer之后,LLM领域的重要论文
机器之心· 2025-06-29 12:23
软件3.0与AI范式变革 - Andrej Karpathy提出「软件3.0」概念,自然语言成为新编程接口,AI模型直接执行任务,标志着计算范式的根本转变[1][2] - 自2017年Transformer架构问世后,LLM领域快速发展,GPT系列和多模态应用迅速崛起[3] - 技术演进从传统编程转向自然语言交互,关键论文揭示了这一转变的内在逻辑[5] 奠基性论文与技术突破 Transformer架构 - 《Attention Is All You Need》提出Transformer架构,完全摒弃循环和卷积网络,依靠自注意力机制高效处理序列数据,成为现代AI基石[8][10] - Transformer的并行计算和位置编码能力使其在机器翻译等任务中表现优异,并广泛应用于NLP和计算机视觉领域[11] GPT系列与缩放定律 - GPT-3拥有1750亿参数,通过少样本学习在翻译、问答等任务中表现优异,确立了「大模型+大数据」的缩放定律[12][13] - GPT-3开创提示工程新范式,降低AI开发门槛,引领生成式AI浪潮[13] 强化学习与人类反馈 - 《Deep Reinforcement Learning from Human Preferences》提出RLHF技术,通过人类偏好训练奖励模型,成为对齐ChatGPT等LLM的关键[14][15] - InstructGPT结合RLHF技术,即使参数更小也能更好遵循指令,催生ChatGPT并确立行业标准[16][17][18] 高效训练与推理技术 计算优化 - Chinchilla论文挑战「模型越大越好」认知,提出计算最优缩放法则,模型参数与训练数据应同步增长[22][23] - LLaMA证明小模型通过更长时间训练可超越大模型,推动开源生态繁荣[27] 注意力与内存优化 - FlashAttention通过融合计算内核和优化内存使用,提升长序列处理效率,成为行业标准[29][30] - PagedAttention借鉴操作系统分页思想,提升LLM服务内存利用率,显著增加吞吐量[51][52] 多模态与开源生态 - LAION-5B提供58.5亿图文对数据集,推动多模态模型发展并降低研发门槛[56][58] - Mistral 7B通过GQA和SWA架构实现高效推理,成为开源社区标杆[55] 新兴趋势与前沿探索 - Mamba架构通过选择性状态空间实现线性时间序列建模,挑战Transformer地位[44][45] - QLoRA技术使消费级GPU可微调数十亿参数模型,推动社区创新[47][49][50] - 思想树(ToT)框架增强LLM复杂问题解决能力,推动推理技术发展[60][61] 行业影响与未来方向 - LLM能力随规模「涌现」,不可预测的新能力推动模型持续扩大[62][63] - 稀疏门控专家混合层(MoE)实现万亿参数模型训练,成为顶尖LLM核心技术[70][71][72] - 开源框架如DeepSpeed和Megatron-LM突破硬件限制,支撑超大规模模型训练[65][67][68]