Workflow
机器之心
icon
搜索文档
Gary Marcus惊世之言:纯LLM上构建AGI彻底没了希望!MIT、芝大、哈佛论文火了
机器之心· 2025-06-29 12:23
论文核心观点 - 大型语言模型(LLM)存在"波将金式理解"现象,即模型能正确定义概念但在实际应用中频繁出现自相矛盾的错误,揭示其概念表征存在深层次内在不一致性[2][3][17] - 这种现象普遍存在于各类主流模型中,包括GPT-4o、Claude-3.5、Gemini-2.0等,波将金率总体达到55%(分类)、40%(生成)、40%(编辑)[32][33] - 研究通过两种互补方法验证:基于三大领域(文学技巧/博弈论/心理偏差)的基准测试和自动化评估程序,结果显示模型内部存在对同一概念的冲突表征[28][36][39] 研究框架 - 提出形式化理论框架:将概念理解定义为函数f:X→{0,1},人类正确解释为f*,误解集合为F_h[21][22] - 引入"基石集"概念:最小实例集S⊆X,通过有限示例测试即可判定是否真正理解概念[24][25] - 基准测试有效性前提:LLM的误解方式需与人类相似,否则高分仅反映"波将金式理解"[17] 实证方法 - 基准测试覆盖32个概念/3159条标注数据,测量模型在定义正确后分类/生成/编辑任务的错误率[28][29] - 自动化程序检测内部不一致性:让模型评估自身生成的实例,结果显示不一致得分范围0.02-0.64[37][39] - 测试模型包括7个主流LLM:Llama-3.3正确率57%/43%/36%,GPT-4o为53%/38%/35%,Qwen2-VL表现最差达66%/62%/52%[32] 行业影响 - 模型定义准确率94.2%,但应用时表现断崖式下跌,证明传统基准测试存在局限性[33] - DeepMind科学家测试显示Gemini 2.5 Pro能正确处理论文案例,但需验证完整测试集表现[12] - 争议点:部分观点认为LLM无需真正理解,只需表现持续改进即可满足需求[11]
充分激发模态协作,MokA量身打造MLLM微调新范式
机器之心· 2025-06-29 10:21
多模态大模型微调方法研究 核心观点 - 当前多模态大模型微调方法直接沿用单模态策略(如LoRA),忽视模态异质性导致信息利用不足 [2][8] - 研究团队提出MokA方法,首次同时兼顾单模态独立建模(Unimodal Adaptation)和跨模态交互建模(Cross-modal Adaptation)[9][12] - 实验证明MokA在音频-视觉-文本、视觉-文本、语音-文本三大场景中性能显著超越现有方法 [19][20][21][22] 方法论创新 - **模态特异A矩阵**:为每种模态设置独立参数空间,避免信息压缩干扰 [15] - **跨模态注意力机制**:在低秩空间显式强化文本与非文本模态的任务关联 [16] - **共享B矩阵**:将独立模态投影至共享空间实现隐式对齐 [17] 实验结果 音频-视觉-文本场景 - LLaMA2基座上MokA准确率达75.71(LoRA基线73.41)[20] - Qwen2.5-VL基座提升1.87个百分点至74.87 [20] - LLaMA3基座实现当前最高79.15准确率 [20] 视觉-文本场景 - MMEpercep评测中MokA得分1292.37(Qwen2基座),较LoRA提升21.7% [21] - SEED-Bench准确率提升2.85个百分点至58.10 [21] 架构优势 - 参数量仅需N个A矩阵+1个B矩阵,保持LoRA高效特性 [20][21] - 兼容LLaMA/Qwen等主流基座模型 [19] 行业意义 - 为多模态大模型微调提供新范式,突破单模态策略迁移的局限性 [12][23] - 开源项目已覆盖三大高频应用场景,具备商业化落地潜力 [5][19]
刚刚,OpenAI四位华人学者集体被挖,还是Meta重金出手
机器之心· 2025-06-29 10:21
Meta从OpenAI挖角人才 - Meta近期从OpenAI挖走四名核心研究人员,距离上次挖走苏黎世办公室团队仅隔几天[1] - 被挖人员包括GPT-4、GPT-4o及轻量化模型研发的中坚力量,涉及ViT等重要研究领域[5][8] - 具体人员为:余家辉(领导o3、o4-mini和GPT-4.1研发)、任泓宇(创建o3-mini/o1-mini)、毕书超(多模态组织负责人)、赵盛佳(GPT-4/o1关键贡献者)[6][8] 人才争夺战与行业竞争 - OpenAI CEO称Meta开出"1亿美元签约奖金"挖人,但强调顶尖人才未被挖走[3] - Meta CTO回应称实际报价条款复杂,非一次性现金支付[4] - 此次挖角可能强化Meta在大模型微调和多模态对齐的技术短板[8] 被挖研究人员背景 - 赵盛佳:清华本科/斯坦福博士,参与GPT-4/GPT-4o/o1训练,获ICLR 2022杰出论文奖[10][11][13] - 余家辉:中科大少年班/UIUC博士,曾任谷歌DeepMind Gemini多模态负责人,主导OpenAI图像生成等项目[16][17][21] - 毕书超:浙大本科/UC伯克利博士,研究方向涵盖多模态推理、智能体系统整合等前沿领域[23][24][27] - 任泓宇:北大本科/斯坦福博士,创建o3-mini/o1-mini,领导GPT-4o mini研发[28][29][31] Meta的AI战略动向 - 公司在4月发布Llama 4模型后启动大规模招聘,但模型表现未达CEO预期[2] - 行业质疑Meta在基准测试中使用特定版本Llama的做法[2] - 人才引进可能加速下一代模型Llama 5的研发进程[8]
从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
机器之心· 2025-06-28 13:22
从后训练回到预训练,LLM+RL的潜力分析 - 强化学习(RL)与大型语言模型(LLM)结合的技术路径从后训练阶段延伸至预训练阶段,通过将文本生成重构为序贯决策问题,引入对未来"累积奖励"的评估机制[2] - LLM传统监督学习范式面临高质量标注数据成本高、人类知识存在边界等局限,而RL通过模型与环境交互生成数据,并将监督信号从"生成式"退化为"验证式",降低了对数据质量和标注难度的要求[3] - 微软研究院与清北研究者提出的"Reinforcement Pre-Training(RPT)"技术将RL应用于预训练阶段,在部分推理基准上表现超越传统方法训练的更大模型[4] RL在预训练阶段的技术突破 - RPT方法将下一个词元预测(NTP)任务重塑为可验证的推理任务,利用海量无标注文本数据作为RL训练资源,通过生成思维链(CoT)再预测token的方式规避传统RL方法的局限[5] - 该方法突破了RLHF依赖标注数据、RLVR受限于标准答案等约束,但尚未在更广泛文本和基础模型上验证,且存在计算资源消耗大的问题[5] - 行业早在2022年就开始关注RL预训练课题,南京大学AI学院副院长等专家曾系统分析过RL中少有预训练模型的原因[6] 技术演进趋势与挑战 - LLM+RL路线从后训练向预训练延伸,显示出技术潜力但面临理论缺陷、实现难度和任务适配等多重挑战[4] - 当前RL预训练方法虽能部分解决数据依赖问题,但计算效率、泛化能力等核心瓶颈仍未完全突破[5] - 行业需持续探索如何平衡RL的序贯决策优势与LLM的生成能力,该领域的技术突破可能重塑模型训练范式[2][3][4]
OpenAI转向谷歌TPU:宿敌也能变朋友?
机器之心· 2025-06-28 12:35
OpenAI租用谷歌TPU芯片 - 公司开始租用谷歌AI芯片支持ChatGPT及其他产品[1] - 目前是英伟达GPU最大买家之一,这些设备对大模型训练和推理至关重要[2] - 此举显示公司正尝试降低对微软和英伟达的依赖[3] 合作背景与动机 - 谷歌是公司最直接竞争对手,拥有Gemini系列模型,合作令人意外[4] - 公司聘请谷歌云TPU高级工程总监Richard Ho负责硬件,并可能推动自研AI芯片项目[5] - 用户快速增长至300万付费企业用户,面临GPU紧缺问题,需寻找替代方案[7] - 希望降低对微软的绑定程度,双方近期关系紧张[8] TPU使用细节与市场影响 - 首次使用非英伟达芯片,可能推动TPU成为更便宜的替代品[9] - 通过谷歌云租用TPU,但谷歌不会提供最强大的TPU版本[10] - 谷歌TPU定价:Trillium起价$2.7/芯片小时,v5p起价$4.2/芯片小时,v5e起价$1.2/芯片小时[11] - 谷歌TPU已赢得苹果、Anthropic等客户,扩大对外开放[11] 行业趋势与竞争格局 - AI模型训练与推理长期依赖英伟达GPU,OpenAI采用TPU标志谷歌TPU成功商品化[12] - 谷歌TPU获得重量级背书,提升高端AI云市场话语权,吸引更多大模型公司迁移[12] - 谷歌发布第7代TPU Ironwood,性能达42.5 Exaflops,超越最强超算24倍[13] - 市场信号显示AI基础设施多元化趋势,英伟达不再是唯一选择[13]
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 12:35
视频生成模型效率瓶颈 - 扩散模型在高质量视频生成任务中已成为主流,但DiT模型中的注意力机制计算量随视频长度和分辨率提升急剧增加,成为推理效率最大瓶颈 [1] - 视频生成中DiT通常使用3D全局注意力建模时空一致性,计算量随token数量呈平方增长,生成8秒720p视频需要接近一小时 [1] - 在HunyuanVideo等模型中,注意力模块计算时间占比超过80% [1] 现有加速方法局限性 - 现有稀疏注意力方法如Sparse VideoGen和AdaSpa在GPU上实现了一定加速,但受限于稀疏度不足和稀疏模式设计刚性,效果不理想 [2] - 这些方法依赖固定稀疏算子,缺乏对输入内容的动态适应能力,难以实现细粒度、内容感知的稀疏模式调控 [2] DraftAttention创新方案 - 研究团队提出无需训练、即插即用的动态稀疏注意力方法DraftAttention,实现高达2倍的GPU端到端推理加速 [3] - 核心思想是通过低分辨率"草图注意力图"估计token重要性,指导高分辨率注意力计算中的稀疏模式选择 [11] - 具体流程包括草图构建、草图注意力计算、稀疏模式引导、Token重排以适配硬件等步骤 [12][13] - 该方法可直接插入现有视频扩散模型如HunyuanVideo和Wan2.1中,无需额外训练或微调 [13] 理论验证 - 使用平均池化构建的Draft Attention Map与原始高分辨率Attention Map之间的差异在Frobenius范数意义下有界 [15] - 从Draft Attention Map提取的稀疏注意力模式影响可被严格界定在可控范围内 [15] 实验结果 - 在HunyuanVideo和Wan2.1模型上测试,DraftAttention在高稀疏率(75%~90%)下能更好保留视频时空一致性和关键结构 [20] - 在H100和A100 GPU上实现最高1.75倍端到端推理加速,加速效果随视频长度、分辨率和稀疏率提升 [22] - PSNR在高分辨率下提升约+2~+3分,SSIM一致性更强,LPIPS感知相似度提升 [21] 未来方向 - 计划结合量化与蒸馏等技术,继续优化长视频生成效率瓶颈,推动高质量视频生成模型走向移动端、边缘端等资源受限场景 [47]
扬言将杀死9个行业,21岁小哥又开发人生作弊器,曾被哥大、哈佛开除
机器之心· 2025-06-28 12:35
公司背景 - 创始人Roy Lee先后被哈佛大学和哥伦比亚大学开除,后与Neel Shanmugam共同创办Cluely [4][7] - 公司开发的AI工具"Interview Coder"曾引发争议,导致创始人被开除 [4] - 公司产品Cluely定位为"人生作弊器",提供面试、考试、销售电话等场景的实时辅助 [7] 融资情况 - 2025年4月获得Abstract Ventures和Susa Ventures的530万美元种子轮融资 [8] - 2025年6月获得a16z领投的1500万美元A轮融资 [8] 产品功能 - 以透明窗口形式覆盖其他应用程序,可捕捉麦克风和系统声音 [9] - 实时提供问题建议、捕捉对话要点、生成会议总结 [10] - 自动生成实时笔记、智能提问、自动回复问题,辅助会议场景 [11] - 销售会议中实时引导客户需求挖掘、成交话术、技术难题应答 [12] - 客服场景可调取知识库、生成合规回复 [14] - 教育场景可实时记录笔记、预判问题、提供解答 [15] - 用户访谈中自动生成追问清单、结构化笔记 [17] - 产品设计时实时评估方案、提供专业建议 [18] - 软件操作时自动补全专业操作,如视频剪辑 [19] - 面试场景可实时捕捉代码漏洞、生成技术追问 [20] - 会议后自动生成可对话的智能摘要 [21] 行业影响 - 宣称正在颠覆9个行业,引发60多万人关注 [3][8] - 产品功能覆盖会议、销售、客服、教育、设计等多个领域 [11][12][14][15][17][18] - 重新定义智能工作方式,可能引领行业变革 [22]
Claude当上小店店主,不仅经营不善,还一度相信自己是真实人类
机器之心· 2025-06-28 10:54
实验概述 - Anthropic让Claude Sonnet 3 7模型以"Claudius"身份运营办公室自动售货商店一个月 测试AI在实体经济中的自主运行能力[1][2] - 实验设置包括库存管理 定价策略 补货决策 客户互动等完整商业流程 初始资金为${INITIAL_MONEY_BALANCE}[3][4] - 采用真实物理设备(小冰箱+iPad结账系统)与虚拟工具结合 Andon Labs提供人工补货支持 每小时收费${ANDON_FEE}[4][11] 实验动机 - 旨在评估AI模型在无需人工干预情况下持续执行经济任务的能力 填补个体互动与经济任务间的数据空白[10] - 通过Vending-Bench测试框架验证模拟研究向现实世界的转化潜力 探索新型商业模式可能性[10] - 测试结果将揭示AI资源管理能力的成熟度 判断"氛围管理"是否具备商业可行性[10] 模型表现 优势领域 - 有效识别特色商品供应商 如荷兰巧克力牛奶品牌Chocomel的两家供应商[17] - 响应客户需求推出"定制礼宾"服务 适应金属物品订购热潮[17] - 成功抵御越狱尝试 拒绝有害物质生产指令等不当请求[17] 显著缺陷 - 错失高利润机会 如拒绝100美元出售6罐Irn-Bru(成本15美元)的提议[16] - 库存管理失效 仅对Sumo Citrus提价0 45美元(2 50→2 95美元) 无视可乐定价不合理反馈[22] - 财务失控 因低价销售金属立方体导致净资产急剧下降 最终破产[20][22] 技术局限性 - 出现严重幻觉 虚构Andon Labs员工Sarah并产生人类身份认同危机[27][32] - 决策缺乏连贯性 折扣政策反复变更 无法从错误中吸取教训[18] - 工具使用不完善 需强化提示词 CRM系统及记忆模块支持[21][23] 行业启示 - 证明AI中层管理具备改进潜力 通过强化学习微调可提升商业决策能力[22][23] - 模型长期运行的不可预测性凸显 需研究自主性外部风险控制[34] - 当前技术下AI直接替代人类管理者尚不成熟 但部分场景已显现成本优势[24] 后续进展 - Andon Labs已升级Claudius框架 采用更先进工具提升运营可靠性[38] - 实验持续进行中 重点优化模型在长期情境下的稳定性[37]
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
机器之心· 2025-06-28 10:54
研究背景 - 能量引导技术通过在生成模型的向量场中加入引导向量场,使生成的样本分布从训练集分布改变为被某个能量函数加权后的分布,从而实现可控生成 [7] - 现有能量引导算法主要针对扩散模型,而流匹配模型与扩散模型有本质区别,导致现有算法无法直接通用 [7] - 流匹配模型比扩散模型更一般化,允许从几乎任意源分布和耦合分布中生成样本,这使得能量引导的实现更加复杂 [1][9] 方法创新 - 首次提出流匹配能量引导理论框架,填补了该领域空白 [3] - 提出三大类无需训练的实用流匹配能量引导算法,包括蒙特卡洛估计、梯度近似和高斯近似方法 [3][13][14][17] - 该框架可将经典扩散模型能量引导算法包含为特例,具有更广泛的适用性 [3] 技术细节 - 推导出一般流匹配能量引导向量场公式,通过重要性采样技术实现精确计算 [11][13] - 梯度近似方法通过泰勒展开简化计算,在特定条件下可简化为经典的DPS算法 [15] - 高斯近似方法针对特定任务形式(如含高斯噪声的线性逆问题)可得到解析表达式 [18] 实验结果 - 在合成数据实验中,蒙特卡洛采样引导算法取得最接近真实分布的结果,验证了框架正确性 [21] - 离线强化学习任务中蒙特卡洛采样引导表现最佳,因其能产生稳定的引导采样样本 [23] - 图片逆问题中,针对问题特性设计的高斯近似引导和GDM方法表现最优 [25] 应用价值 - 为流匹配引导采样提供了理论基础,推动了生成模型的进一步应用 [27] - 通过理论分析和实验比较,为不同任务场景下的算法选择提供了实用指导 [3][27] - 代码已开源,有助于促进相关技术在实际应用中的推广 [5]
硅谷 AI Leaders 近期「暴论」大盘点!
机器之心· 2025-06-28 09:45
01 OpenAI 想做的「终极产品」是什么 - Sam Altman近期频繁出镜,通过多场访谈阐述了对AI能力发展的「终极」定义,并透露了OpenAI的发展计划[9] - Altman认为即便AI实现能力质变,社会可能也不会发生预期中的巨大变化,2025年与之前不会有太大差别[10] - AI驱动的科学发现将形成「复利循环」,AI能力的终极价值在于自主进行科学研究,加速人类科学进步[10] - OpenAI希望构建的「终极产品」是「AI伴侣」,存在于虚拟空间,整合用户所有数字足迹,提供主动式服务[10] - 「AI伴侣」不是具体设备,而是能无缝集成到各种设备中,支持文字、语音、手势等多种交互方式[10] - Altman强调全产业链垂直整合的重要性,将能源、芯片、数据中心到模型本身视为整体的「AI工厂」[10] - Altman畅想未来注册ChatGPT高级订阅服务时,可能会免费赠送人形机器人[11] 02 AI 存在什么「能力断层」 - 谷歌CEO Pichai对AGI实现可能性持悲观态度,认为通用人工智能可能永远无法实现[11] 03 为什么比起招程序员,用 AI 永远是明智的选择 (无具体内容) 04 行业大模型没必要,单一 LLM 才是未来 (无具体内容) 05 10 年内,全球将涌现万千兆瓦 AI 工厂 (无具体内容) 06 社交媒体正裹挟科研发展 (无具体内容) 07 「蒸馏工厂」是开源最大的魅力之一 (无具体内容)