机器之心

搜索文档
统一20+多智能体方法,MASLab震撼发布
机器之心· 2025-06-13 12:31
多智能体系统(MAS)研究进展 - OpenAI将「组织级」智能列为AGI最终目标,即AI能像组织般管理复杂流程和决策[1] - 近两年多智能体系统研究快速涌现,推动领域向该目标迈进[1] - 上海交大、牛津大学等10家机构联合推出首个统一的大模型多智能体系统代码库MASLab[2] MASLab核心功能 - 集成20种主流MAS方法,覆盖NeurIPS/ICLR等顶会成果,严格遵循原始实现[6][8] - 统一输入预处理、LLM配置和评估协议,确保横评公平性[8] - 结构化代码设计支持快速复现和二次开发,解决接口混乱问题[7][8] 多智能体系统性能评估 - 实验覆盖10余种基准(MATH/GPQA等)和8大模型(LLaMA-3.3/GPT-4o等)[11] - MAS-GPT在Llama-3.3-70B上取得63.6平均分,优于单智能体基线(58.9)[12] - Qwen-2.5-72B上最佳方法(MAS-GPT)较单智能体提升1.3分(63.4 vs 62.1)[12] 技术创新与社区建设 - 团队提出MASLab-ReAct新方法,在工具调用场景展现显著优势[16] - 实验证明评估协议差异会导致方法排名剧烈变动[17] - 发起MASWorks开源社区,计划在ICML 2025举办MAS专题研讨会[23][24]
腾讯打出「AI岗位薪酬不限」的底气来自哪?
机器之心· 2025-06-13 12:31
AI行业发展趋势 - AI领域竞争重心正从模型参数与训练技巧转向定义有价值问题和构建真实场景评估体系[6] - 当前AI社区面临基准测试收益递减问题 基准饱和速度加快但解决现实问题进展有限[6] - 下半场需将AI嵌入人类环境 实现多轮互动式服务 如客服场景中的动态调整[6] 场景为王时代的公司选择标准 - 合格公司需具备持续做AI能力 包括大规模用户体量 高频刚需交互 多元化商业结构[11] - 技术-业务耦合强度是关键 AI应作为核心驱动力而非锦上添花 确保技术快速部署[12] - 商业化验证能力是试金石 需观察AI驱动营收案例和客户付费意愿[13] - 稳定商业回报才能支撑算力投入和人才薪酬 缺乏变现的企业面临生存挑战[14] 腾讯的AI场景优势 - 微信14.02亿月活和QQ5.34亿月活提供全球稀缺的高频社交场景[16] - 业务矩阵覆盖社交 游戏 广告 内容生产等 形成TOB+TOC完整数据闭环[16] - 混元模型和元宝等AI技术深度嵌入微信 《和平精英》AI队友等核心业务[17] - 2025Q1财报显示AI驱动广告收入增长20%至319亿元 游戏收入增长24%至595亿元[18] 腾讯青云计划人才机制 - 提供自由探索环境 非KPI导向 可自主选择游戏 广告等亿级用户场景课题[24] - 配备顶级科学家导师 协助梳理业务场景 2023年有成员28岁晋升T12专家[25][26] - 2025年升级筛选标准 通过CVPR会议 校企课题等渠道接触候选人[27][28] - 计划覆盖混元大模型 优图实验室等10+技术团队 提供群星晚宴等交流机会[29]
AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
机器之心· 2025-06-13 10:32
通用人工智能与世界模型 - 谷歌DeepMind研究证明,能够处理复杂长期任务的AI智能体必须学习内部世界模型,且该模型可从智能体行为中提取[3][4][5] - 世界模型是实现多步骤目标导向行为的必要要素,提升智能体性能需学习更精确的世界模型[5][20][34] - 实验显示智能体处理目标深度(n)增加时,提取的世界模型误差按O(δ/√n)+O(1/n)比例下降[32][33][34] 理论框架构建 - 研究基于四要素构建数学框架:环境(20状态5动作cMP)、目标(LTL逻辑表达)、智能体(有界目标条件策略)、世界模型(预测环境转移函数)[24][25][27][28] - 有界智能体定义为在最大目标深度n下失败率δ≤1的策略,其最优策略可最大化目标实现概率[28][29] - 世界模型精度与智能体能力正相关,当δ→0且n≫1时模型误差趋近于0[31][33][34] 算法与实验验证 - 开发Algorithm 1算法通过查询智能体复合目标行为来估计状态转移概率Pss'(a),精度参数n与目标深度2n+1相关[37][38] - 在20状态5动作稀疏转移环境中测试,即使δ=1的最坏情况下仍能恢复准确世界模型,平均误差随目标深度增加而降低[40][46] - 算法填补了"策略+目标→世界模型"的三角关系,区别于传统规划(模型+目标→策略)和IRL(模型+策略→目标)[41][43] 行业技术关联 - 研究支持Ilya Sutskever观点:大语言模型本质是学习世界模型压缩表征,预测准确度反映模型保真度[16][17][19] - Genie 2基础世界模型可通过单图像生成无限3D环境,为智能体提供经验流训练,标志从人类数据时代向经验时代转变[50][51][52] - 领域泛化需比任务泛化更深层因果理解,适应分布变化的智能体必须学习因果世界模型[45][47]
CVPR 2025 Highlight|北大联手智元发布首个基于说明书的家电操作评测基准
机器之心· 2025-06-13 10:32
本工作于 2024 年 11 月完成,目前已经被 CVPR 2025 接收并评选为 Highlight,第一作者为龙宇星,导师为北京大学董豪老师。课题组致力于研究统一的物体表征 操作研究,以实现具有可解释性和泛化能力的物体操作策略。 自 19 世纪末爱迪生发明电灯以来,电器的发展和革新不断提升人类的生活水平。如今,电器已经走进千家万户,成为我们的得力助手,与我们的生活密不可分。 赋予机器人使用家电的能力具有重要的学术价值和广阔的应用前景。 目前在机器人操作领域,一般物体(如刚体和铰接物体)的操作研究已经取得一定进展,但是现有操作策略主要执行单步原子操作。对于设备(如家电)而言, 必须按照正确顺序和方式进行多步操作,才能正确完成高层次任务。因此,参照说明书进行长程操作规划对于家电操作而言十分必要。 然而,受限于以下三大挑战,基于说明书的长程家电操作探索几乎处于空白状态: 为应对上述挑战, 北京大学联合智元机器人团队提出了全新的家用电器操作评测基准 CheckManual,这是首个专为研究基于说明书的家电操作而设计的评测框架 论文标题:CheckManual: A New Challenge and Benchm ...
何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
机器之心· 2025-06-12 17:57
扩散生成模型与表征学习 - 扩散生成模型在建模复杂数据分布方面表现出色,但与表征学习领域关联不大[2] - 扩散模型训练目标包含重构回归项,但缺乏为生成学习表征的显式正则化项,与图像识别领域以表征学习为核心的范式差异明显[3] - 自监督学习中对比学习通过样本对学习表征,已有效解决分类、检测等识别任务,但尚未在生成模型中探索应用[4][5] REPA方法的局限性 - 谢赛宁团队提出表征对齐(REPA)方法,利用预训练表征模型能力实现生成模型内部表征与外部预训练表征对齐[6] - REPA依赖额外预训练、额外模型参数和外部数据访问,操作复杂且不够独立极简[7][8] 分散损失(Dispersive Loss)创新 - MIT团队提出分散损失作为即插即用正则化器,将自监督学习集成到扩散生成模型,无需预训练、额外参数或外部数据[9][10] - 分散损失核心思想是在标准回归损失外增加正则化内部表征的目标,鼓励隐藏空间表征分散[10][13] - 该方法行为类似"没有正例对的对比损失",无需双视图采样、数据增强或额外编码器,仅需增加可忽略计算开销的正则化损失[13] 分散损失技术实现 - 目标函数由标准扩散损失L_Diff和批次依赖的分散损失L_Disp组成,加权系数λ控制正则化强度[14] - 直接应用于中间表示层,不增加额外可学习参数或修改原始L_Diff实现[15][16] - 通过适当移除正例项可从现有对比损失推导分散损失,形成鼓励表征分散的通用目标类别[18] 分散损失变体与性能 - 开发基于InfoNCE、Hinge和Covariance的三种分散损失变体,均比对应对比损失更简洁[19][24][26] - 实验显示采用ℓ₂距离的InfoNCE变体表现最佳,使FID分数降低11.35%[31][34] - 在DiT和SiT模型上分散损失均优于基线,对更强模型改进更显著,验证其正则化作用[36][37] 方法优势与应用 - 相比REPA无需DINOv2等预训练模型(11B参数/1.42亿图像训练),实现完全独立[41][42][43] - 可泛化应用于一步式扩散模型,在MeanFlow上实现持续改进并达到SOTA性能[44][45]
通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
机器之心· 2025-06-12 14:08
背景与挑战 - 当前信息爆炸时代需要智能体具备深度信息挖掘和多步推理能力,但面临任务复杂度高、泛化能力弱等挑战[4] - 自主信息检索智能体构建的两大难题:高质量训练数据稀缺(如GAIA仅466样本、WebWalkerQA仅680样本)和开放环境训练复杂性[5][11] - WebDancer需具备看懂网页、多步决策、适应动态环境、自主提问/行动/修正等核心能力[7] 数据创新 - 采用CRAWLQA(模拟人类浏览权威网站)和E2HQA(逐步增强问题复杂度)构建海量高质量问答对[16] - 通过三阶段数据过滤(有效性控制、正确性验证、质量评估)确保数据质量[15][17] - 使用ReAct框架进行思维链蒸馏,内化agentic能力至模型[13][14] 训练策略 - 两阶段训练:监督微调(SFT)实现冷启动,强化学习(RL)优化决策能力[21][22] - 采用DAPO算法动态采样未被充分利用数据对,提升数据效率[23][24] - 通过并行计算等技术降低RL阶段计算成本,每次回滚时间减少25%[25] 性能表现 - GAIA测试:WebDancer在Level 1/2/3任务分别达56.4%、48.1%、25%,平均46.6%,超越GPT-4o基线34.6%[32][33] - WebWalkerQA测试:中等/高难度任务提升显著,平均分达43.2%[30][32] - BrowseComp测试:英文任务达5.0分,中文任务达22.2分,显著优于GPT-4o的1.9分和6.2分[34][35] 未来方向 - 计划集成浏览器建模、Python沙盒等工具扩展能力边界[41] - 从短答案检索向开放域长文本写作任务扩展[42] - 通过6k条长思维链数据即可在GAIA实现高效训练,验证"数据贵精不贵多"[47] 技术定位 - 聚焦从头训练具备agentic能力的开源模型,而非依赖闭源模型提示工程[44] - 采用原生ReAct框架实现自主规划、自我反思和行动执行等涌现能力[45]
从高考到实战,豆包大模型交卷了
机器之心· 2025-06-12 14:08
豆包大模型1.6升级 - 豆包大模型1.6包含标准版、深度思考强化版和极速版三个主要版本[3] - 性能达到世界前沿水平,是国内首个支持256K上下文的思考模型系列,具备多模态理解和GUI操作能力[4] - 在高考数学测试中,豆包1.6从能读重本升级到能上清北的水平[4] - 编程任务测试中,豆包1.6一次性完成贪吃蛇游戏代码编写且无需修改[15] - 在五位数字密码推理问题中,豆包1.6是国内首个能通过非编程式推理解决该问题的模型[19][22] Seedance 1.0 Pro视频生成模型 - Seedance 1.0 Pro支持无缝多镜头叙事、多动作及随心运镜[6] - 在Artificial Analysis视频竞技场中表现超过Veo3和可灵2.0[6] - 测试显示该模型在动态一致性、细节真实感和镜头语言理解方面表现优异[38][39] AI基础设施与工具 - 火山引擎推出三大AI基础设施套件:AgentKit、TrainingKit和ServingKit[8][65] - veRL强化学习框架已支持DeepSeek 671B和Qwen3 235B等大型MoE模型,GitHub star量超过9300[62][63] - 构建多模态数据湖,为企业提供AI原生数据基建[64] - 推出Prompt Pilot服务,可自动分析和优化提示词[58] 技术发展主线 - 第一条主线是"推理+视觉"范式发展,将推理能力扩展到视觉理解领域[51] - 第二条主线是视频生成走向实用化,高质量视频生成进入实际生产环境[51] - 第三条主线是多步骤复杂任务处理,即智能体(Agent)概念的发展[52] 市场影响与战略 - Meta宣布148亿美元投资Scale AI事件引发市场关注[30] - 火山引擎强调"AI云原生"概念,重新优化AI工作负载的云端架构[8][71] - 公司计划长期投入,目标是成为客户信赖的云服务平台[72]
2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
机器之心· 2025-06-12 11:23
本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。本项目为 作者在英伟达实习期间完成的工作。 想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个 "精灵族树屋村落"—— 参天古木和树屋、发光的蘑菇路灯、半透 明的纱幔帐篷... 传统工作流程中,这可能需要数周时间:先手工建模每个 3D 资产,再逐个调整位置和材质,最后反复测试光照效果…… 总之就是一个 字,难。 核心贡献:无需训练的智能 3D 场景工厂 ArtiScene 的核心创新在于构建了一个完全 无需额外训练 的自动化流水线,将文本生成图像的前沿能力与 3D 重建技术巧妙结合。它一共包含五步: 1. 2D 图像作为 "设计蓝图" 系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图,因为它能同时呈现物体的长、宽、高信息,且不受场景位置影响。相比直 接生成 3D,这种方法能利用更成熟的 2D 生成技术确保布局合理性和视觉美感。 这种困境正是当前 3D 内容创作领域的缩影。传统 3D 设计软件如 ...
SIGGRAPH 2025奖项出炉:上科大、厦大入选最佳论文
机器之心· 2025-06-12 11:23
机器之心报道 编辑:泽南、陈陈 让我们祝贺获奖者。 本周三,全球图形学领域的顶级会议 SIGGRAPH 公开了今年的论文奖项。 SIGGRAPH 自 1974 年起由美国计算机协会计算机图形专业组(ACM SIGGRAPH)每年组织举办。该会议在图形图像技术,计算机软硬件等方面都有着相当高的 影响力。如今,大会涵盖的技术领域包含动画、模拟、成像、几何、建模、渲染、人机交互、触觉、制造、机器人、可视化、音频、光学、编程语言、沉浸式体 验、生成式人工智能和视觉计算机器学习等。 今年的 SIGGRAPH 大会将在 8 月 10-14 日在加拿大温哥华举行,根据此前信息,共有 306 篇技术论文被接收。 最佳论文奖 今年大会共评选出 5 篇最佳论文,国内机构收获颇丰,包括上海科技大学、华中科技大学、厦门大学、清华大学在内的机构获奖。以下是获奖及提名论文的简要 介绍。 论文 1:Shape Space Spectra 这篇获奖论文作者全部来自国内机构。此外,2024年该团队也曾获得两项SIGGRAPH最佳论文提名。 论文摘要:从单幅 RGB 图像恢复高质量的 3D 场景在计算机图形学中是一项极具挑战性的任务。当前的方法 ...
CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
机器之心· 2025-06-12 08:53
本文第一作者杜恒辉为中国人民大学二年级硕士生,主要研究方向为多模态大模型视听场景理解与推理,长视频理解等,师从胡迪副教授。作者来自于中国人民 大学,清华大学和北京腾讯 PCG AI 技术中心。 我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的 任务,它们分别要求模型具备不同层面的能力。 过去大量的工作主要聚焦于完成单一任务,相比之下,我们人类对周围复杂的的世界具有一个通用的感知理解能力。因此,如何设计一个像人类一样对视听场景 具有通用理解能力的模型是未来通往 AGI 道路上一个极其重要的问题。 当前主流的学习范式是通过构建大规模的多任务指令微调数据集并在此基础上直接做指令 微调 。然而,这种学习范式对于多任务学习而言是最优的吗? 最近中国人民大学高瓴人工智能学院 GeWu-Lab 实验室,清华大学和北京腾讯 PCG AI 技术中心合作发表的 CVPR 2025 论文指出, 当前这种主流的学习范式忽视 了多模态数据的异质性和任务间的复杂关系,简单地将所有任务联合训练可能会造成任务间的相互干扰。 为了有效实现任务间的显示互 ...