机器之心

搜索文档
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
机器之心· 2025-06-24 14:46
研究团队与背景 - 第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解 [1] - Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille [2] - 第二作者马崟淞是约翰斯・霍普金斯大学博士生 [3] - 第三作者兰石懿是英伟达 Research Scientist [4] 核心发现 - 强化学习领域出现颠覆性发现:AI仅通过玩简单游戏(如贪吃蛇)就能显著提升数学推理能力,无需大量数学训练样本 [5] - 研究团队提出ViGaL (Visual Game Learning)方法,在多个主流视觉数学基准测试和MMMU系列基准测试中超越此前在数学等领域数据上训练的强化学习模型 [5] - 论文标题为"Play to Generalize: Learning to Reason Through Game Play",强调不用数学样本,游戏训练在数学基准取得突破 [6] 研究方法与结果 - 使用7B参数的Qwen2.5-VL模型进行训练,仅通过强化学习训练模型玩贪吃蛇和旋转游戏 [11] - 在数学推理基准上平均提升2.9%,在多学科推理基准上平均提升2.0%,超过专门在数学或多学科数据上训练的强化学习方法 [11] - ViGaL在MathVista等数学推理基准上平均提升2.9%,相比之下在高质量数学数据集上进行强化学习的方法仅提升2.4% [15] - 在MMMU系列多学科推理任务上,ViGaL超越在多学科数据上进行RL训练的R1-OneVision-7B模型5.4个百分点 [15] 游戏设计原理 - 贪吃蛇游戏:在10×10网格上训练路径规划、避障决策和空间导航能力,对应数学中的坐标几何和函数图像理解 [18] - 旋转游戏:自主设计的3D空间推理游戏,训练空间几何理解能力,对应角度和长度相关的数学推理问题 [19] - 两款游戏设计哲学互补:贪吃蛇提升2D坐标相关数学表现,旋转游戏更适合角度和长度推理,联合训练效果更佳 [20] 理论依据与意义 - 游戏训练符合认知科学规律,类似儿童通过搭积木、躲猫猫等游戏活动构建抽象思维基础 [16] - 认知科学研究证实游戏常被用作探索人类心智的实验平台,如"四子连珠"游戏研究规划能力 [17] - ViGaL揭示潜在新趋势:当高质量人类数据枯竭时,精心设计的游戏可能为多模态推理能力发展开辟新道路 [22] - 游戏化训练范式优势:成本极低、效果显著、拓展性强、通用性好 [25]
ACL 2025 | 让小说角色 「活」起来!复旦BookWorld打造沉浸式小说世界模拟系统
机器之心· 2025-06-24 14:46
研究背景与核心创新 - 传统小说创作受限于作者想象力,角色在故事完结后失去活性,现有AI系统缺乏对已有小说世界的深度还原能力 [8] - BookWorld突破性提出基于小说构建多智能体社会的方法,从原著提取角色特征、世界观设定和背景知识,构建完整虚拟社会 [5][8] - 系统支持角色AI自主互动、成长和创造故事,完美还原原著世界观同时生成全新故事篇章 [5][18] 系统架构与功能设计 - 框架由角色智能体(扮演小说角色)和世界智能体(协调系统运作)组成,以场景(Scene)为最小叙事单位 [11] - 提供自主模式(角色根据全局事件制定目标)和干预模式(用户通过脚本引导故事)两种运行方式 [11] - 创新性加入地理空间建模,角色移动受地理限制和旅行时间影响增强沉浸感 [11] 数据构建与技术实现 - 从16部中英文小说(10部英文+6部中文)提取9142条设定信息,采用术语-性质-详情-来源四要素结构化存储 [13][14] - 基于术语的设定抽取技术自动整理世界观设定,例如"隐形斗篷"归类为道具并关联原文章节出处 [13][14] - 模拟流程以"幕"为单位推进,动态选择同地点角色进行集中互动,世界智能体实时调整行动顺序 [16] 实验效果与性能表现 - 在75.36%案例中生成故事质量超越现有方法,五个关键维度(拟人化、角色忠实度等)均表现优异 [18] - 对比闭源模型(GPT-4o-mini、Gemini-2)和开源模型(Deepseek-v3、Llama-3),在带脚本模式下拟人化评分达84.1-93.5分 [19] - 场景功能对故事质量提升显著,带场景模式下写作质量(WQ)评分提升至86.9分,比无场景高10.1分 [19] 应用场景与未来方向 - 可作为小说创作工具探索不同结局,或作为互动娱乐平台让读者"进入小说"参与剧情 [21] - 计划支持更复杂世界观设定,开放平行故事线实现个性化小说宇宙构建 [21]
3D VLA新范式!中科院&字节Seed提出BridgeVLA,斩获CVPR 2025 workshop冠军!
机器之心· 2025-06-24 09:46
只需要三条轨迹,就能取得 96.8% 的成功率?视觉干扰、任务组合等泛化场景都能轻松拿捏?或许,3D VLA 操作新范式已经到来。 当前,接收 2D 图像进行 Next Action Token 预测的「2D VLA」模型已经展现出了实现通用机器人操作的潜力;同时,接受 3D 信息作为输入,并以下 一时刻的关键帧作为输出的「3D 操作策略」已被证明拥有极高的数据效率(≈10 条操作轨迹)。 那么,直觉上来讲,一个好的「3D VLA」模型应该能够综合以上的优点,兼具 efficient 和 effective 的特点。然而,当前 3D VLA 的模型设计并未实现 上述期待。 为了解决上述问题,中科院自动化所谭铁牛团队联合字节跳动 Seed 推出 BridgeVLA,展示了一种全新的 3D VLA 范式,实现了 模型能力与数据效率的同 步飞跃,并斩获了 CVPR 2025 GRAIL workshop 的 COLOSSEUM Challenge 冠军。 目前代码与数据已经全面开源。 项目主页:https://bridgevla.github.io/ 出发点:对齐 VLM 与 VLA BridgeVLA 的核心理念 ...
报名开启!别再一个人刷论文了,来ACL 2025论文分享会一起面对面交流
机器之心· 2025-06-24 09:46
AI领域发展动态 - AI领域在2025年保持高速发展 大模型演化、多模态系统融合、推理能力与可解释性持续突破 [1] - AI技术迭代速度极快 新模型和新框架几乎每隔数周就有突破性进展 [2] - 系统性参与学术交流、深入学习最新研究成果、与顶尖研究者对话成为掌握前沿技术的关键 [3] 顶级学术会议的重要性 - ACL、NeurIPS、ICML、CVPR等全球顶级会议是AI技术交汇的核心场域 提供观察发展脉络的窗口 [4] - ACL 2025总投稿数达8000多篇创历史新高 会议将于7月27日-8月1日在维也纳举办 [5] - 机器之心持续举办NeurIPS、CVPR、ACL论文分享会 受到海内外高校和企业广泛关注 [6] ACL 2025论文分享会详情 - 机器之心将于7月19日在北京举办ACL 2025论文分享会 设置Keynote、论文分享、圆桌对话等环节 [7] - 活动包含企业招聘宣讲、论文Poster展示和企业展位交流 邀请顶级专家与论文作者参与 [7] - 线下参与名额限制200名 详细日程将通过后续公告发布 [8][13] 合作伙伴与活动历史 - 黄大年茶思屋科技网站是推动科技交流的开放平台 汇聚全球科学家分享前沿学术成果 [10][11] - 机器之心曾联合举办云帆・ICLR 2025、CVPR 2025论文分享会等多场活动 助力企业吸纳人才 [12] - 企业可通过指定联系方式参与学术顶会活动的合作共建 [13][14]
我在哪?要去哪?要怎么去?字节跳动提出Astra双模型架构助力机器人自由导航
机器之心· 2025-06-23 17:39
传统导航瓶颈与Astra的创新 - 传统导航系统面临目标定位、自我定位与路径规划三大核心挑战,在复杂场景中依赖人工地标如QR码,模块化设计导致效率低下 [3] - 字节跳动研发的双模型架构Astra突破传统瓶颈,采用System 1/System 2理念:Astra-Global处理低频定位任务,Astra-Local执行高频路径规划与里程计估计 [4][5] - Astra-Global作为多模态大语言模型,通过混合拓扑语义图实现视觉-语言精准定位,支持自然语言指令解析如"找到打印机" [8][11] Astra-Global技术细节 - 离线构建混合拓扑语义图包含节点(V)、几何连通边(E)和语义地标(L),通过SfM估计6自由度相机位姿,地标共视图增强场景理解 [10] - 采用两阶段定位流程:粗定位阶段匹配地标与预建地图,精定位阶段直接输出预测位姿,仓库环境位姿精度比传统方法提升30%+ [11][20] - 以Qwen2.5-VL为骨干,结合SFT和GRPO训练,零样本场景定位准确率达99.9%,超越SFT-only方法的93.7% [12] Astra-Local技术实现 - 4D时空编码器通过ViT和Lift-Splat-Shoot技术将2D图像转为3D voxel特征,自监督学习结合伪深度标签优化 [15] - 规划头采用Transformer流匹配生成轨迹,掩码ESDF损失使OOD数据集碰撞率显著低于ACT和扩散策略方法 [16][23] - 里程计头融合IMU/车轮数据,旋转估计精度提升后轨迹误差降至2%,多传感器融合增强尺度稳定性 [17][23] 实验验证与性能 - Astra-Global在文本/图像定位中展现优势,精准捕捉房间号等细节,视点变化下位姿误差范围1米/5度 [20] - 仓库场景中规划头碰撞率低于基线方法,里程计头加入IMU后轨迹误差改善至2%水平 [23] - 家庭环境测试显示SFT+GRPO方法定位准确率99.9%,显著优于纯监督学习的93.7% [12] 应用前景与改进方向 - 潜在应用场景扩展至商场导购、医院物资运输和图书馆书籍整理等复杂室内环境 [25] - 需改进地图表示的语义细节保留,未来研究替代压缩方法并引入主动探索机制 [25] - Astra-Local将增强OOD场景鲁棒性,集成指令跟随能力以实现自然语言交互 [26]
AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
机器之心· 2025-06-23 15:44
核心观点 - 研究提出AI模型应采用「先慢后快」的推理策略,而非模仿人类的「先快后慢」模式 [4][5] - AlphaOne框架通过引入全局推理调控超参数α,显著提升模型准确率和效率 [6][16] - 该方法无需额外训练,仅需在测试阶段调整α值即可实现推理优化 [6][13] 方法论 - 通过α-moment统一调控推理节奏,之前引导慢思考,之后切换快思考 [16][18] - 慢思考阶段采用Bernoulli过程插入wait标记,概率由调度函数控制 [20][21] - 快思考阶段用</think>标记终止慢思考,避免推理惯性 [24][25] 实验结果 - 在1.5B模型上准确率提升+6.15%,生成token数减少14% [29][30] - 线性衰减调度策略在多项任务中表现最优 [32] - α值可灵活调控思考预算,存在性能最优区间 [34] - 后α-moment调控机制对性能提升至关重要 [43] 应用场景 - 在数学解题、代码生成、科学问答等六大推理任务中验证有效性 [27] - 成功案例包括化学混合题,失败案例包括多角恒等式推理 [47] 未来方向 - 开发更复杂的慢思考调度策略 [48] - 摆脱对特定标记的依赖 [48] - 扩展至多模态推理场景 [48]
无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码
机器之心· 2025-06-23 15:44
长序列训练内存优化技术 - 核心观点:StreamBP算法通过线性分解和分步计算链式法则,将大语言模型训练所需的激活值内存降低至梯度检查点方法的20%,同时实现序列长度提升2.8-5.5倍 [3][6] 技术原理 - 梯度检查点方法仅储存每层输入,但单层完整激活值仍占内存85%以上 [9][13] - StreamBP将单层反向传播过程分解为块计算,按输出分块累加Jacobian-vector product,仅需储存当前块输入和输出 [11][14] - 对Transformer层采用注意力掩码优化,对lmhead层根据目标函数特性分块处理(SFT/GRPO独立计算,DPO利用序列维度独立性) [16][20] 性能表现 - 峰值内存从标准BP的36.01GB降至StreamBP的11.99GB(D=20),中间内存从25.15GB降至1.13GB [14] - 单卡A800-80GB测试显示,最大序列长度达梯度检查点的2.5-5.5倍,标准BP的23-36倍 [22][25] - 14B模型SFT训练中,序列长度从梯度检查点的23提升至StreamBP的84.6,32B模型从0.4提升至16.3 [26] 应用兼容性 - 支持SFT、GRPO、PPO、DPO等LLM目标函数,可集成至现有训练框架 [6][20] - 分布式训练下序列长度提升5-5.6倍,部分长序列场景速度较梯度检查点提升10.9%-12.9% [25][28] - 开源代码适配Transformer层和lmhead层,已提供PyTorch实现 [12]
新鲜出炉!斯坦福2025 CS336课程全公开:从零开始搓大模型
机器之心· 2025-06-23 12:04
课程发布与师资 - 斯坦福大学2025年春季CS336课程《从头开始创造语言模型》已全面上线 提供课程视频和主页链接[1][5] - 讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究方向为机器学习模型性能权衡 学术成果累计引用超3万次[2][3] - 另一位讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超过10万次 研究方向涵盖自然语言处理与机器学习[6][7] 课程内容与结构 - 课程目标为引导学生完成开发语言模型的全流程 包括数据收集、模型构建、训练及评估等环节[8] - 课程分为5个单元共19门课 涵盖token化、PyTorch应用、GPU优化、Scaling Law拟合、数据清洗及模型对齐等核心技术[10] - 实践作业包括实现BPE分词器、Transformer架构、Flash Attention 2优化及分布式训练等 要求学生直接使用PyTorch原语编程[10] 学习门槛与技能要求 - 需熟练掌握Python编程 课程作业代码量显著高于其他AI课程 涉及底层框架开发[11] - 需具备深度学习与系统优化经验 包括PyTorch应用及GPU并行计算能力[11] - 需掌握大学微积分、线性代数、概率统计及机器学习基础知识[11] 行业合作与资源 - 课程包含阿里巴巴达摩院研究员和Meta AI科学家的客座讲座 聚焦Qwen和Llama 3等工业级模型开发经验[10] - 提供Triton框架实现、Common Crawl数据处理等实战内容 强调工业级技术栈应用[10]
等了十年,特斯拉Robotaxi终于上线!马斯克:仅需4.2美元一口价
机器之心· 2025-06-23 12:04
特斯拉Robotaxi服务启动 - 特斯拉在德克萨斯州奥斯汀正式启动自动驾驶出租车服务,兑现了马斯克十年前的承诺[3][4] - 首批乘客支付固定价格4.20美元搭乘服务[4],并可选择支付小费[6] - 服务目前仅限受邀用户使用,主要为知名社交媒体博主和科技内容创作者[10] 运营规模与范围 - 试运营投入10至20辆贴有Robotaxi标识的Model Y车辆[11] - 服务覆盖区域严格限制在特斯拉已绘制地图的地理围栏区域内,边界明确[12] - 运营时间为每天早上6点至午夜12点,避开复杂场景[12] - 计划在未来几个月内将Robotaxi数量扩大至上千辆[28] 技术实现与安全措施 - 当前版本并非完全无人驾驶,车内配有安全监控员[19] - 在某些情况下安排跟车车辆和远程驾驶员作为额外保障[20] - 默认不启用车内摄像头,仅在乘客请求或紧急情况下使用[21] - 遇到复杂情况时,乘客可请求远程操作员介入,平均响应时间约两分钟[25] 用户体验反馈 - 大部分行程表现平稳,能应对日常城市驾驶情境,车速控制在40英里以下[23] - 车内乘客显示屏功能类似网约车应用,界面设计被形容为"基本就是个Uber"[24] - 存在初期App推送缓慢、上车点定位不清晰等问题[27] - 有测试者反映可故意让车辆出错并需要远程操作员介入[26] 行业竞争态势 - 竞争对手Waymo已在多个城市运营超过1500辆无人车[29] - Waymo计划2026年前将车队扩大至2000辆[29] - 特斯拉计划将服务推广至加利福尼亚州等监管门槛更高的地区[28]
海螺新模型海外爆火:一夜之间,猫、羊驼、长颈鹿都学会跳水了
机器之心· 2025-06-22 13:57
AI视频生成技术进展 - 国内AI公司Minimax推出新模型"Hailuo 02",能够生成动物完成高难度体操、跳水等复杂动作的视频,公司宣称该模型是全球唯一能实现此类复杂场景生成的模型[7][8] - 相比早期AI视频模型,新模型的生成效果更自然,AI痕迹明显减少,尤其在处理复杂物理动作方面有显著提升[4][7] - 阿里通义万相wan-2.1-t2v模型在跳水动作生成方面也表现优异,该模型于2月份开源[13] 技术实现细节 - Hailuo 02采用名为"Noise-aware Compute Redistribution(NCR)"的创新架构,公司公布了架构图但未透露具体技术参数[16] - 用户可通过简单提示词生成视频,例如"televised footage of a cat is doing an acrobatic dive into a swimming pool at the olympics, from a 10m high diving board, flips and spins",替换动物名称即可生成不同内容[12] 应用场景与行业影响 - AI视频工具显著降低创作门槛,使普通人能便捷实现创意,例如短视频平台上出现大量以AI生成动物为主角的情景剧和趣味内容[16][17] - 随着工具功能完善,用户对内容创意的要求同步提高,提示词优化成为创作关键环节[17][18] - 生成的动物奥林匹克主题视频在社交媒体引发广泛传播,单个猫咪跳水视频5小时内获得超百万观看量[1][8]