Workflow
机器之心
icon
搜索文档
ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
机器之心· 2025-06-13 23:45
长文本建模的挑战与GCA的创新 - 长文本建模面临两大核心挑战:主流LLMs的Transformers架构存在平方复杂度及显存开销线性增长问题,以及full-attention外推能力有限难以泛化到超长输入[1] - 高效处理长上下文不仅关乎工业界降本增效,更涉及AGI核心问题——构建具有永久记忆的智能体,这将成为大语言模型公司的数据护城河[1] - 蚂蚁团队提出GCA机制,模拟人类开卷考试模式,通过因果检索注意力实现端到端学习,仅关注相关历史片段,显著降低显存开销[2] GCA技术原理与架构 - GCA采用两阶段注意力机制:分组注意力收集各chunk信息,chunk-level融合通过softmax加权整合关键信息用于预测[14][15] - 架构结合GCA与滑动窗口注意力,前者负责长程检索后者处理短程信息,通过Triton kernel实现优化显存管理[15] - 与传统检索方式相比,GCA让检索分参与前向运算获得梯度,实现检索模块的端到端学习[13] 实验性能表现 - 128M模型实现1000倍长度泛化,16K预训练模型在16M上下文passkey retrieval达到100%准确率[5][17] - 训练开销随序列长度呈线性增长,推理显存接近常数且速度持平Transformers,CPU卸载策略使48K上下文显存仅增加1.62倍[17][20] - 在arXiv-math数据中展示语义级检索能力,能识别引理和变量声明的逻辑相关性[21] 行业技术对比 - 相比滑动窗口注意力牺牲长程信息、温度调节法泛化有限等现有方案,GCA突破性地实现有效利用超长上文信息[7][8] - 与DeepSeek的NSA形成技术互补:GCA侧重长度泛化,NSA优化稀疏attention,后续HSA工作融合两者优势[5] 开源与学术影响 - 技术实现已通过Triton kernel全部开源,论文被ICML 2025接收[3][11] - 尽管实验规模较小,但为机器永久记忆机制提供新思路,首次实现16M长度完美信息检索[23]
烧钱一年,李飞飞的「空间智能」愿景有变化吗?
机器之心· 2025-06-13 20:02
创业一年后 World Labs 的愿景 - World Labs 在成立一年内完成两轮融资累计募资2 3亿美元 估值突破10亿美元 成为AI领域独角兽企业 [5] - 公司已发布「世界生成」模型和Forge渲染器等技术成果 其中「世界生成」技术仅需单张图片即可生成可交互3D物理世界 [5][6] - 空间智能被定位为理解重建生成物理世界的核心能力 超越语言模型局限 目标构建可创造无限虚拟宇宙的AI系统 [5][6] - 技术路径依赖跨学科整合(AI+计算机图形学) 当前算力数据工程能力提升使「世界模型」攻关具备可行性 [7] 空间智能对AI完整性的意义 - 语言模型存在三维物理世界描述的天然缺陷 空间智能作为更古老的智能形式可弥补这一关键缺口 [6][8] - 公司技术路线选择与主流LLM分野 专注让AI理解3D物理世界运作方式 涉及机器人设计社交等多领域应用 [5][8] - 空间智能被视为智能的核心组件之一 其突破将推动AI从单一现实向多元宇宙演进 [5][6] 空间智能与多元宇宙愿景 - 「多元宇宙」指通过AI创造无限虚拟宇宙 需依赖3D物理世界的理解与生成能力 [4][6] - 技术反直觉发展体现在:早期忽视3D表征 现通过数据驱动方法实现空间智能突破 [4][7] - Forge渲染器支持Web端实时渲染AI生成3D场景 标志技术落地取得实质性进展 [7] 世界模型的发展现状 - 前置技术如算力提升数据积累工程优化为世界模型创造发展时机 [7] - 公司方法论借鉴LLM的数据驱动和神经网络经验 但强调需结合计算机图形学等跨学科知识 [7] - 下一步重点攻关方向包括3D物理世界的理解重建及生成技术的场景化应用 [4][7]
一粒「扣子」,开启了Agent的全生命周期进化
机器之心· 2025-06-13 17:22
Agent行业发展趋势 - 2025年被视为Agent爆发元年,将显著改变PC、移动端人机交互范式并提升多任务自动执行能力[1] - 互联网大厂和AI初创企业将Agent作为竞争焦点,通过MCP、A2A等协议扩展能力边界[2] - 火山引擎Force 2025大会将Agent列为焦点,展示其重塑生产力的潜力[3][4] 扣子平台升级 - 扣子平台从单一开发平台进化为覆盖Agent全生命周期的四大组件体系[5] - 四大组件包括:低代码开发平台、Eino开源框架、效果调优罗盘、Agent协作空间[7] - 平台适应大模型时代多样化需求,提供智能化开发体验[5] 扣子开发平台功能 - 支持零代码开发并一键发布至飞书、微信等主流渠道[8] - 提供智能体IDE、应用IDE、插件模板和企业级安全四大赋能模块[9] - 预置上千插件和工作流模板,支持搭建知识库并连接火山方舟多模型[9] - 应用IDE支持拖拉拽GUI开发,企业级安全支持VPC私网连接[10] - 提供开箱即用的智能客服、文章转换等预置模板[12] Eino开源框架 - 采用Go语言编写,融合LangChain等社区框架优点[13] - 标准化Chat Template、文档解析等核心模块为可调用组件[14] - 支持可视化编排复杂任务流程,具备流处理能力和工具链[15] - 字节内部已有300+系统采用,GitHub获4.3k星标[16] - 抖音电商智能客服应用效率提升50%以上[16] 扣子罗盘全生命周期管理 - 贯穿开发、评测、观测、优化四阶段闭环[16] - 评测阶段支持Prompt/Agent量化评估,首家商业化支持轨迹评估[22] - 观测阶段实时分析token消耗、请求量等运行数据[19] - 支持自动上报数据,适配LongChain等框架数据接入[19] - 与火山方舟Prompt优化和模型微调能力贯通[23] 扣子空间协作平台 - 国内AI产品增速榜首,整合多领域专家Agent协同[25] - 支持市场分析、高考咨询等场景,通过MCP协议扩展能力[26] - 未来将上线更多行业专家Agent强化生态[26] 行业基础设施展望 - 扣子平台有望成为大模型时代Agent发展的基础支撑[27]
「倒计时3天」2025 WAIC云帆奖全球征集|共青年之智,铸AGI未来
机器之心· 2025-06-13 17:22
2025 WAIC 云帆奖全球征集已进入倒数 3天,小伙伴们赶快 on board!点击文末「阅读原 文」完成报名或提名! 在全球 AI 创新格局加速重塑之际,2025 WAIC 云帆奖以「聚智・共进」为主题,继续发掘和表彰 AI 青年 先锋。从基础理论突破到产业实践创新,从跨学科交叉到开源生态建设,我们寻找能够在通往 AGI 的征途 上贡献中国智慧的青年才俊,并将为奖项得主提供学术影响、科研资助、产业生态全方位赋能。 现在,三位重量级奖项召集人向你发出诚挚邀请: WAIC 云帆奖得主赋能计划 学术影响力跃升 :在 WAIC 揭晓获奖名单并颁发证书,提升获奖者国际知名度与学术影响力。为有意愿者 向知名高校、科研机构推荐工作;提供与国际顶尖学术机构、学者交流合作机会,如受邀参加国际会议作 汇报。 奖项设置 璀璨明星 明日之星 百万级科研加速 :联合科研机构提供重点科研项目资助内推,资助金额最高可达数百万;提供算力资源, 助力突破算力瓶颈;多渠道推广研究成果,提升影响力与应用价值。 产业生态赋能 :组织与知名企业、科研机构对接,提供项目实践机会,推动产学研融合。为有创业意愿者 提供创业培训、资金及上下游企业对接等 ...
2025谷歌研究学者计划名单:吴佳俊、Mamba作者Albert Gu、Tri Dao等获奖
机器之心· 2025-06-13 17:22
机器之心报道 机器之心编辑部 未来的世界级研究,可能会出自这些年轻科学家。 本周四, 2025 年谷歌研究学者计划(Research Scholar Program)获奖名单公布了。 研究学者计划是谷歌为了支持学术界研究工作而设立的一个专门项目,旨在通过提供资金支持的方式鼓励 与科研人员的合作,建立长期合作关系,以推动科学和技术的进步。申请人在提交申请时必须是大学或授 予学位的研究机构的全职助理、副教授或教授。 地址:https://research.google/programs-and-events/research-scholar-program/recipients/ 机器之心将获奖华人学者名单整理如下(排名不分先后): 应用科学 Julia Yang:佐治亚理工学院 获奖研究:LLM-GUAL:基于 LLM 的用户定义原子模拟生成 Julia Yang 现在是佐治亚理工学院助理教授,主要研究方向包括电池材料、分子模拟、机器学习以及电化 学。 Julia Yang 于卡内基梅隆大学获得材料科学与工程学士学位,辅修物理学,后于加州大学伯克利分校获得材 料科学与工程博士学位。 每年,谷歌会评选出多个领域有 ...
1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
机器之心· 2025-06-13 12:31
开源LLM推理引擎优化 - vLLM是由加州大学伯克利分校团队开发的高性能开源LLM推理和服务引擎,旨在提升LLM的推理速度和资源利用率,兼容Hugging Face等流行模型库[2] - vLLM通过创新的PagedAttention注意力机制实现方案,使GPT、Mistral、LLaMA等主流模型系列运行更快且消耗更少资源[3] - DeepSeek AI研究者俞星凯开发了轻量级vLLM实现Nano-vLLM,代码简化至1200行,在GitHub上获得200多Star[4][5] Nano-vLLM技术特性 - Nano-vLLM具备三大核心功能:快速离线推理(速度与vLLM相当)、易读代码库(Python代码少于1200行)、优化套件(提供Prefix缓存、Torch编译等功能)[6][7][8] - 基准测试显示,Nano-vLLM与vLLM输出token相同(133,966个),时间略长(101.90秒 vs 98.95秒),吞吐量稍低(1314.65 tokens/s vs 1353.86 tokens/s)[11] - 测试配置为RTX 4070硬件、Qwen3-0.6B模型,256个序列请求,输入输出长度在100-1024 tokens间随机采样[10] 开发者背景 - Nano-vLLM开发者俞星凯现任DeepSeek深度学习系统工程师,参与过DeepSeek-V3和DeepSeek-R1开发[13] - 曾就职于腾讯、幻方(DeepSeek母公司)和字节跳动,2023年正式加入DeepSeek[14] - 此前开发过植物大战僵尸Qt版(GitHub 270+ Star)及多个南京大学计算机项目[13]
统一20+多智能体方法,MASLab震撼发布
机器之心· 2025-06-13 12:31
多智能体系统(MAS)研究进展 - OpenAI将「组织级」智能列为AGI最终目标,即AI能像组织般管理复杂流程和决策[1] - 近两年多智能体系统研究快速涌现,推动领域向该目标迈进[1] - 上海交大、牛津大学等10家机构联合推出首个统一的大模型多智能体系统代码库MASLab[2] MASLab核心功能 - 集成20种主流MAS方法,覆盖NeurIPS/ICLR等顶会成果,严格遵循原始实现[6][8] - 统一输入预处理、LLM配置和评估协议,确保横评公平性[8] - 结构化代码设计支持快速复现和二次开发,解决接口混乱问题[7][8] 多智能体系统性能评估 - 实验覆盖10余种基准(MATH/GPQA等)和8大模型(LLaMA-3.3/GPT-4o等)[11] - MAS-GPT在Llama-3.3-70B上取得63.6平均分,优于单智能体基线(58.9)[12] - Qwen-2.5-72B上最佳方法(MAS-GPT)较单智能体提升1.3分(63.4 vs 62.1)[12] 技术创新与社区建设 - 团队提出MASLab-ReAct新方法,在工具调用场景展现显著优势[16] - 实验证明评估协议差异会导致方法排名剧烈变动[17] - 发起MASWorks开源社区,计划在ICML 2025举办MAS专题研讨会[23][24]
腾讯打出「AI岗位薪酬不限」的底气来自哪?
机器之心· 2025-06-13 12:31
AI行业发展趋势 - AI领域竞争重心正从模型参数与训练技巧转向定义有价值问题和构建真实场景评估体系[6] - 当前AI社区面临基准测试收益递减问题 基准饱和速度加快但解决现实问题进展有限[6] - 下半场需将AI嵌入人类环境 实现多轮互动式服务 如客服场景中的动态调整[6] 场景为王时代的公司选择标准 - 合格公司需具备持续做AI能力 包括大规模用户体量 高频刚需交互 多元化商业结构[11] - 技术-业务耦合强度是关键 AI应作为核心驱动力而非锦上添花 确保技术快速部署[12] - 商业化验证能力是试金石 需观察AI驱动营收案例和客户付费意愿[13] - 稳定商业回报才能支撑算力投入和人才薪酬 缺乏变现的企业面临生存挑战[14] 腾讯的AI场景优势 - 微信14.02亿月活和QQ5.34亿月活提供全球稀缺的高频社交场景[16] - 业务矩阵覆盖社交 游戏 广告 内容生产等 形成TOB+TOC完整数据闭环[16] - 混元模型和元宝等AI技术深度嵌入微信 《和平精英》AI队友等核心业务[17] - 2025Q1财报显示AI驱动广告收入增长20%至319亿元 游戏收入增长24%至595亿元[18] 腾讯青云计划人才机制 - 提供自由探索环境 非KPI导向 可自主选择游戏 广告等亿级用户场景课题[24] - 配备顶级科学家导师 协助梳理业务场景 2023年有成员28岁晋升T12专家[25][26] - 2025年升级筛选标准 通过CVPR会议 校企课题等渠道接触候选人[27][28] - 计划覆盖混元大模型 优图实验室等10+技术团队 提供群星晚宴等交流机会[29]
AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
机器之心· 2025-06-13 10:32
通用人工智能与世界模型 - 谷歌DeepMind研究证明,能够处理复杂长期任务的AI智能体必须学习内部世界模型,且该模型可从智能体行为中提取[3][4][5] - 世界模型是实现多步骤目标导向行为的必要要素,提升智能体性能需学习更精确的世界模型[5][20][34] - 实验显示智能体处理目标深度(n)增加时,提取的世界模型误差按O(δ/√n)+O(1/n)比例下降[32][33][34] 理论框架构建 - 研究基于四要素构建数学框架:环境(20状态5动作cMP)、目标(LTL逻辑表达)、智能体(有界目标条件策略)、世界模型(预测环境转移函数)[24][25][27][28] - 有界智能体定义为在最大目标深度n下失败率δ≤1的策略,其最优策略可最大化目标实现概率[28][29] - 世界模型精度与智能体能力正相关,当δ→0且n≫1时模型误差趋近于0[31][33][34] 算法与实验验证 - 开发Algorithm 1算法通过查询智能体复合目标行为来估计状态转移概率Pss'(a),精度参数n与目标深度2n+1相关[37][38] - 在20状态5动作稀疏转移环境中测试,即使δ=1的最坏情况下仍能恢复准确世界模型,平均误差随目标深度增加而降低[40][46] - 算法填补了"策略+目标→世界模型"的三角关系,区别于传统规划(模型+目标→策略)和IRL(模型+策略→目标)[41][43] 行业技术关联 - 研究支持Ilya Sutskever观点:大语言模型本质是学习世界模型压缩表征,预测准确度反映模型保真度[16][17][19] - Genie 2基础世界模型可通过单图像生成无限3D环境,为智能体提供经验流训练,标志从人类数据时代向经验时代转变[50][51][52] - 领域泛化需比任务泛化更深层因果理解,适应分布变化的智能体必须学习因果世界模型[45][47]
CVPR 2025 Highlight|北大联手智元发布首个基于说明书的家电操作评测基准
机器之心· 2025-06-13 10:32
本工作于 2024 年 11 月完成,目前已经被 CVPR 2025 接收并评选为 Highlight,第一作者为龙宇星,导师为北京大学董豪老师。课题组致力于研究统一的物体表征 操作研究,以实现具有可解释性和泛化能力的物体操作策略。 自 19 世纪末爱迪生发明电灯以来,电器的发展和革新不断提升人类的生活水平。如今,电器已经走进千家万户,成为我们的得力助手,与我们的生活密不可分。 赋予机器人使用家电的能力具有重要的学术价值和广阔的应用前景。 目前在机器人操作领域,一般物体(如刚体和铰接物体)的操作研究已经取得一定进展,但是现有操作策略主要执行单步原子操作。对于设备(如家电)而言, 必须按照正确顺序和方式进行多步操作,才能正确完成高层次任务。因此,参照说明书进行长程操作规划对于家电操作而言十分必要。 然而,受限于以下三大挑战,基于说明书的长程家电操作探索几乎处于空白状态: 为应对上述挑战, 北京大学联合智元机器人团队提出了全新的家用电器操作评测基准 CheckManual,这是首个专为研究基于说明书的家电操作而设计的评测框架 论文标题:CheckManual: A New Challenge and Benchm ...