机器之心

搜索文档
一张照片,一个3D「你」:计算所等提出HumanLift,实现高保真数字人重建
机器之心· 2025-10-22 07:20
创建具有高度真实感的三维数字人,在三维影视制作、游戏开发以及虚拟/增强现实(VR/AR)等多个领域均有着广泛且重要的应用。 尽管现有技术在从多视角图片重建高质量、可动画化的三维人体模型任务中展现出诸多优势,但从单张参考图像重建真实感三维数字人,依旧面临技术复杂、资 源消耗大的挑战。 如何兼顾三维一致性与参考图像一致性,重建出高质量、高真实感的人物外观与姿势,以及如何生成高真实度且细节一致的服饰、人脸等,都是亟待解决的难 题。 近期,中国科学院计算技术研究所、香港科技大学和英国卡迪夫大学的研究人员合作提出了一项基于单张参考图像重建高斯网(GaussianMesh [1])数字人全身的 技术 HumanLift [2],相关技术论文已被 SIGGRAPH ASIA 2025 接收。 项目主页: http://geometrylearning.com/HumanLift/ 该项工作提出了一种融合三维视频扩散模型和人脸增强的单图高斯网数字人重建方法。通过此方法,用户仅需输入单张人体图片,就能重建出高质量、高逼真度 的三维数字人,不仅能在不可见视角下准确估计人物外观和服饰几何细节,还能保持多视角一致性,同时确保生成的三 ...
刚刚,OpenAI发布AI浏览器ChatGPT Atlas,基于Chromium
机器之心· 2025-10-22 07:20
机器之心报道 编辑:Panda 刚刚,OpenAI 发布 AI 浏览器 ChatGPT Atlas 。 当然,这是一个意料之中的消息,毕竟山姆・奥特曼已经多次表达过 OpenAI 对浏览器的兴趣,他甚至在谷歌可能被迫出售 Chrome 浏览器时表达过潜在的收购意 愿。他曾直言:「如果 Chrome 真要出售的话,我们应该研究一下。」或许正因为重视,山姆・奥特曼也亲自参与了 Atlas 的发布。 现在,谷歌已没有被迫出售 Chrome 的风险,OpenAI 推出自家的浏览器也完全合乎情理,此举也无疑将加剧其与谷歌(Chrome)和微软(Edge)的竞争关系。 ChatGPT Atlas ChatGPT Atlas 目前仅发布了 macOS 版,对 Free、Plus、Pro 和 Go 用户免费开放,感兴趣的用户已经可以在此处下载使用: https://chatgpt.com/atlas OpenAI 也提到将会发布 Windows、iOS 和 Android 版本。 究其核心,ChatGPT Atlas 的核心能力是将 ChatGPT 接入到用户浏览器,让「ChatGPT 可以看到您所在的页面,并通过 Ask ...
具身智能学界业界思想「惊人的统一」?美团在IROS开了个学术年会
机器之心· 2025-10-21 17:32
机器之心报道 编辑:冷猫 最近机器人和 AI 相关领域的读者或多或少都在关注 IROS。 IROS(IEEE/RSJ International Conference on Intelligent Robots and Systems)由日本机器人学会(RSJ)与 IEEE RAS 于 1988 年联合创办,会议聚焦智能机器人领 域,内容更多以机器人为主。 今年的 IROS 是第二次进入中国内地,在杭州举行。 这次机器之心受邀参加了「2025 美团机器人研究院学术年会」,这次美团的学术年会作为 IROS 的分会场在杭州国际博览中心举办。我们走进了 IROS 会场,感受 浓浓的学术氛围和讨论热情。 这次学术年会以 「机 致生活 (Robotics for better life)」 为主题,具身智能与零售服务的结合,是美团机器人最大的愿景和商业理念。 美团机器人研究院自 2022 年成立以来,致力于搭建连接产业与学术的开放科研平台,推动产学研用的合作发展。近一年来,美团在低空物流、具身智能等核心赛 道上持续加码,推动前沿的学术探索高效转化为可落地的产业价值。 令我们印象深刻的是,美团无人机配送服务已经能够初具规 ...
豆包是如何炼成的?字节放出自研万卡训练系统ByteRobust论文
机器之心· 2025-10-21 17:32
机器之心报道 编辑:Panda 大型语言模型(LLM)训练的核心基础设施是 GPU。现如今,其训练规模已达到数万块 GPU,并且仍在持续扩大。同时,训练大模型的时间也越来越长。例如, 一个 405B 参数模型 LLaMA 3 的预训练,动用了 16,384 块 NVIDIA H100 GPU,耗时 54 天。字节跳动曾使用 12,288 块 GPU 训练了一个 175B 参数的模型。最近, xAI 建立了一个拥有 100,000 块 GPU 的集群以进一步扩大训练规模。 资源规模的扩张也带来了故障的普遍发生(例如 CUDA 错误、NaN 值、任务挂起等),这对训练的稳定性构成了巨大挑战。Meta 曾报告称,在 16,000 块 GPU 上 训练大模型时,硬件故障大约每 2.78 小时发生一次。 对于 LLM 训练,当前的故障诊断和处理实践通常依赖于在发生「故障即停止」 (fail-stop) 事件后进行日志分析和退出码评估,或者独占整个集群进行压力测试。 一旦确定了根本原因,训练任务会通过重新调度的资源和并行配置来恢复,并从远程文件系统重新加载通常由 TB 级数据组成的检查点 (checkpoints)。这种 ...
清华、快手提出AttnRL:让大模型用「注意力」探索
机器之心· 2025-10-21 17:32
文章核心观点 - 强化学习是推动机器获得推理与语言能力的关键驱动力 [2] - 过程监督强化学习通过监督推理过程而非仅看结果来提升模型推理能力,但存在探索效率低和训练成本高的问题 [3][7] - 清华与快手研究团队提出的AttnRL框架,通过引入注意力机制作为探索指南针,显著提升了过程监督强化学习的效率与性能 [4][9] 过程监督强化学习的现实困境 - 传统结果监督方法对所有token赋予相同奖励,忽略推理过程中的细粒度质量 [7] - 传统过程监督方法在分支位置选择和采样策略上效率低下,导致训练成本高昂 [7] - 具体瓶颈包括分支策略粗糙、采样效率低下以及训练流程冗余 [10] AttnRL框架的核心创新:注意力引导探索 - 关键洞察是模型推理过程中注意力得分高的步骤对应关键的思考时刻,如规划、自我验证或转折点 [12] - 提出基于注意力的树分支策略,通过计算前向上下文影响力分数,仅在影响后续推理程度最高的关键位置建立分支 [13] - 实验证明破坏高注意力步骤会显著降低模型解题准确率,验证了其作为关键节点的有效性 [17] AttnRL的自适应采样机制 - 引入难度感知探索,根据FCI分数过滤简单问题,对困难问题扩展更多推理树进行探索 [22] - 采用动态批次调整,根据有效样本数动态调整批次大小,确保所有样本的梯度均有贡献 [22] - 设计一步离策略训练流程,将初始采样与蒙特卡洛采样交错执行,每步训练只需生成一次样本,大幅降低采样成本 [23] 实验结果:性能与效率双赢 - 在六个数学推理基准上,AttnRL对1.5B和7B基座模型均实现稳定提升,平均准确率分别达到57.2%和68.7% [27][28] - 相比DeepScaleR-Preview-1.5B需要1750步和24K上下文,AttnRL仅需500步和8K上下文即实现更优结果 [28] - 基于注意力的分支方法在全对比例、全错比例、有效比例等统计上全面优于熵分支方法 [29] - 自适应采样确保每批次样本均有效,AttnRL在500步训练中生成56亿有效token,性能达57.2,优于GRPO和TreeRL等方法 [32] 未来展望 - AttnRL将注意力分数首次用于过程监督强化学习的探索决策,为提升大模型可解释性和强化学习研究开辟了新方向 [34] - 该方法表明效率与智能并非对立,可通过更高效的探索实现共赢 [34]
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
机器之心· 2025-10-21 11:43
技术突破与核心优势 - 全新模型DeepSeek-OCR实现技术突破,将1000字文章压缩为100个视觉token,压缩率达十倍,精度高达97% [1] - 单块英伟达A100每天可处理20万页数据,极大提升长上下文处理效率 [1] - 视觉token压缩效率比文本token高出10倍,例如1万英文单词原本对应15000个文本token,现仅需约1500个视觉token即可完整表示 [9] - 该方法可能解决大模型领域的长上下文效率问题,并为大幅扩展模型有效上下文长度(如一千万至两千万token级别)提供潜力路径 [1][12] 行业影响与社区反响 - 模型开源后迅速获得AI社区关注,GitHub项目一晚收获超过4000个Star [1] - OpenAI联合创始成员Andrej Karpathy肯定其作为OCR模型的价值,并引发对“像素是否比文本更适合作为LLM输入”的范式转变思考 [3][5] - 研究者认为该方法颠覆了传统多模态LLM中视觉token效率低下的观念,使视觉表示文本成为更高效的选择 [9] - 技术思路被与谷歌Gemini模型可能采用的核心技术相联系,但DeepSeek-OCR的可贵之处在于完全开源模型权重与方法细节 [12] 潜在应用场景 - 高压缩效率使将公司所有关键内部文档塞进提示词前缀并缓存成为可能,实现快速且经济地查询而无需搜索工具 [12] - 可将整个代码库放入上下文中缓存,每次修改仅需追加差异部分内容,提升开发效率 [13] - 技术若与DeepSeek早前发布的稀疏注意力机制DSA结合使用,前景将更加令人兴奋 [11] - 已有开发者成功在英伟达Spark硬件和Mac上部署该模型,例如Django框架联合创建者使用4个提示词在40分钟内完成部署 [14][15] 技术渊源与学界评价 - 核心方法思路并非首创,早在2022年哥本哈根大学等机构的论文《Language Modelling with Pixels》已提出类似思想,其PIXEL模型通过渲染文本为图像解决词汇瓶颈问题 [18][20] - 后续有多篇研究成果对此思路进行发展和改进,包括CVPR 2023的CLIPPO模型和NeurIPS 2024、2025的相关论文 [21][24] - 有批评声音指出该方法不存在渐进性,不像人类,例如Meta研究者Lucas Beyer的评论 [25] - 纽约大学助理教授谢赛宁对Karpathy的评论深感共鸣,其本人曾将Transformer架构与扩散模型结合提出DiT,为文生视频开辟新道路 [5][8]
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward
机器之心· 2025-10-21 11:43
但一个朴素而尖锐的问题始终横在面前:当视觉信息变得极其繁复、结构密集,模型究竟能不能「看懂图」?比如以高分辨率地铁图为代表的真实场景,既要求 精细的视觉感知,又要求跨线路、跨站点的空间推理。 来自该团队的前向工作 ReasonMap 首次系统揭示了这一问题:在高分辨率地铁图等真实场景下,即使最先进的 MLLMs 也频繁在跨线路、跨站点的路径规划中出 现「看错线」「漏站」「重复路线」等推理幻觉。 本研究由西湖大学 ENCODE Lab 牵头,联合同济大学、浙江大学和新加坡国立大学共同完成。团队在大模型强化学习与多模态推理方向具有深厚研究基础。 近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。 团队进一步发现,在高分辨率、信息极其密集的地铁图上,仅依靠最终答案给出成败信号的强化学习,很容易陷入奖励极度稀疏的困境:多数输出几乎得不到任 何正反馈,少数「偶然对」的样本又会造成高方差梯度,训练既慢又不稳,这使得模型在长链路路径规划中频繁出现看错线、漏站、甚至重复路线的「幻觉」。 为此,该团队进一步提出 RewardMap:一个围绕真实 map reasoning ...
大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解
机器之心· 2025-10-21 11:43
研究核心观点 - 领域特定的监督微调(SFT)并不总是会严重削弱大模型的通用能力,灾难性遗忘问题更多源于训练策略的选择而非SFT范式本身 [2] - 采用更小的学习率进行SFT,可以在保持目标领域性能的同时,大幅缓解模型在数学推理、代码生成、指令跟随等通用能力上的退化 [2] - 研究团队提出了Token自适应Loss重加权(TALR)方法,进一步优化了在较大学习率下领域性能与通用能力之间的平衡 [19][20] 实验设计与设置 - 实验选取了两个现实强相关的领域和数据集:MedCalc(医疗推理,10.1k训练/1.05k测试)和ESCI(电商商品多分类,49k训练/10k测试)[5][8] - 使用了多种规模的开源LLM进行实验,包括Qwen3-8B、Qwen2.5-7B、Gemma3-4B等Instruct模型 [6] - 核心控制变量为学习率,设置了1e-6、5e-6、2e-5三档,其他训练超参遵循常规SFT实践 [6] - 在MetaMathQA(395k训练样本)大规模数学推理数据集上进行了补充实验,采用DeepSeek-Coder-7B作为基础模型 [12][14] 关键研究发现 - 更小的学习率(如1e-6)能带来更优的性能折中,在MedCalc和ESCI任务上,模型在保持目标领域强性能的同时,显著减轻了通用能力的下降 [11] - 对于仅需最终标签的分类问题(如ESCI w/o CoT),实现理想折中的学习率范围更宽,5e-6的学习率表现与1e-6相当 [12] - 即便在大规模数据集MetaMathQA上,更小的学习率(5e-6)也能在保持数学领域性能的同时,显著缓解模型原有编码能力的退化 [14] - 理论分析表明,较小的学习率能够严格收紧通用性能下降的上界,而训练目标仅包含最终标签时,模型遇到的“难token”数量减少,从而拓宽了可接受的学习率范围 [15][17] TALR方法及其效果 - TALR通过建立约束优化问题,根据每个token的预测概率自适应分配权重,置信度低(概率小)的token权重更小,以削弱这些hard token在训练中的过度梯度贡献 [20][21] - 在MedCalc基准上的实验显示,当学习率较大(5e-6)时,TALR相比L2正则化、LoRA、Wise-FT等方法,能实现更优的Pareto前沿,在保持领域增益的同时显著减少通用性能损失 [26] - TALR在训练中自发呈现出“课程学习”机制,由易到难动态调整学习路径,优先通过高置信度token驱动优化,再逐步纳入难点token [32] 行业影响与展望 - 研究重申了SFT作为大模型能力提升基石的重要性,挑战了“RL可以解决一切”的行业观点,指出高质量的SFT是RL有效发挥作用的先决条件 [34] - 该工作为更好的领域适配提供了重要启发,特别是在医学等专业场景中,如何在注入领域知识的同时保留基础模型的通用能力是关键方向 [35] - 未来研究需探索更强大的缓解策略,以在必须使用大学习率追求最高领域性能的场景下,更好地兼顾通用能力,同时需在更大规模模型和更广泛数据集上进行验证 [27][35]
喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好
机器之心· 2025-10-21 11:43
机器之心报道 编辑:杨文、+0 天天刷推,大模型的脑子也会坏掉。 终于有研究证明, 互联网上的烂内容会让大模型得「脑腐」 。 相信许多读者对「脑腐」这个词并不陌生,长时间沉浸在碎片化的网络信息中,我们经常会感到注意力下降、思维变钝。 最近,德克萨斯 A&M 大学、德克萨斯大学奥斯汀分校和普渡大学的一篇论文表明,LLM 也会像人类一样,因长期接触垃圾内容而导致「大脑退化」。 研究者将数月的病毒性推特数据(短小、互动性强的帖子)喂给模型,并观察到它们的认知崩溃: 更让人担心的是,即使重新用干净、高质量的数据进行再训练,这些认知上的损伤也无法完全修复,类似「大脑退化」一样的「腐化」现象会持续存在。 这表明,AI 系统就像人类一样,如果长期接触不良信息,可能会导致认知上的永久性变化。 动机 最近几年,「脑腐」这个词突然进入了公众视野,它被用作一种简写,描述无尽的、低质量的、诱导参与的内容如何钝化人类的认知,即通过强迫性的在线消 费,侵蚀专注力、记忆纪律和社交判断力。 如果 LLM 从同样泛滥的互联网信息源中学习,那么一个问题就变得不可避免:当我们持续向模型投喂「数字垃圾食品」时,会发生什么? 研究 LLM 的「脑腐」 ...
刚刚,Anthropic上线了网页版Claude Code
机器之心· 2025-10-21 08:15
| | | 今天凌晨,Anthropic 上线了 「Claude Code on the web」(即网页版 Claude Code) 功能,这种全新的方式可以让用户直接从浏览器中委派编程任务。 博客地址:https://www.anthropic.com/news/claude-code-on-the-web 目前,网页版 Claude Code 处于 Beta 阶段,作为研究预览版向 Pro 和 Max 用户开放使用。 用户可以将多个编程任务交给 Claude 执行,这些任务会在 Anthropic 托管的云端基础设施上运行,非常适合处理 漏洞积压、常规修复或并行开发工作。 对于一些用户来说,网页版 Claude Code 是「迫切需要」的。 并且,允许在浏览器中直接委派编程任务,是迈向高效顺滑软件开发的关键一步。 具体来讲,网页版 Claude Code 具有以下三大亮点: 一是, 并行运行编程任务 。 在网页端使用 Claude Code,用户无需打开终端就能启动编码会话。连接 GitHub 仓库,描述你的需求,Claude 会负责实现。 每个会话都在独立的环境中运行,并具备实时进度追踪功能。用户还可 ...