Workflow
机器之心
icon
搜索文档
前两天刚被群嘲,ChatGPT转头就解决了一个数学难题
机器之心· 2025-10-23 15:45
机器之心报道 前些天,OpenAI 研究员宣称 GPT-5 「发现」了 10 个悬赏数学难题的解决方法,舆论误以为是 GPT-5 给出了解题方法,结果被发现只是检索到了早已存在的文 献,引发了学界大佬的群嘲以及对于 AI 领域夸大宣传和 AI 检索能力的激烈讨论。参阅报道《 OpenAI「解决」10 道数学难题?哈萨比斯直呼「尴尬」,LeCun 辛 辣点评 》。 然而,讽刺的是,当人们还在辩论 AI 是不是一个合格的「文献检索员」时,真正的数学发现已经悄然发生。 AI 取得研究突破 加州大学洛杉矶分校(UCLA)数学教授 Ernest Ryu 发推称:「我使用 ChatGPT 解决了凸优化中的一个未曾被解决的问题。」 编辑:Panda 随后,他通过一系列推文介绍了自己与 ChatGPT 的联合成果。 首先来看一下他所研究的问题本身: $$\ddot{X}(t)+\frac{3}{t}\dot{X}(t)+\nabla f\bigl(X(t)\bigr)=0,\qquad\mathrm{for~}t>0$$ $$X(t)\to X_{\infty}\in{\mathrm{argmin}}\,f.$$ $$f{\ ...
6800万美元,清华、北大、上海交大多位校友获奖,亚马逊AI博士奖学金公布
机器之心· 2025-10-23 15:45
机器之心报道 机器之心编辑部 亚马逊 AI 博士奖学金获得者已经陆续公布了,该计划将资助来自九所大学的 100 多名博士生来研究机器学 习、计算机视觉和自然语言处理领域。 九所高校包括 CMU、约翰霍普金斯大学、MIT、斯坦福大学、加州大学伯克利分校、加州大学洛杉矶分 校、伊利诺伊大学厄巴纳 - 香槟分校、德克萨斯大学奥斯汀分校和华盛顿大学。 另外,该项目将在 2025–2026 和 2026–2027 两个学年中,向学生提供 1000 万美元的资助,并每年额外提供 2400 万美元的 Amazon Web Services(AWS)云计算额度。这使得该项目在两年内共计提供 6800 万美元。 截止目前,已有多所高校公布了博士生入选名单,接下来,我们看看华人学者有哪些。 MIT Jenny Huang Jenny Huang 是 EECS 的博士生。她的研究兴趣包括数据驱动的机器学习、不确定性量化以及高效人工智能 的开发。Huang 在杜克大学获得了统计学和计算机科学学士学位。 David Jin David Jin 是计算科学与工程系的博士生。Jin 对可扩展计算有浓厚兴趣,并致力于通过算法设计和现代硬件 ...
仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架
机器之心· 2025-10-23 15:45
文章核心观点 - 阿里巴巴与上海交通大学EPIC Lab联合提出名为Socratic-Zero的自主推理训练框架,该框架仅从100个种子问题出发,通过三个智能体的协同进化,实现无需外部数据依赖的模型推理能力自进化[5] - 该方法的核心突破在于,其合成数据质量全面超越GPT-5、Gemini-2.5-Pro、Claude-4.1-Opus等顶级闭源模型作为数据生成器时的表现[14] - 该框架证明了在推理能力构建中,高质量的教学策略可能比模型规模更重要,为资源受限的团队提供了新的可能性,并开启了一条零数据、自进化的新路径[34][35] 方法框架与设计理念 - 框架设计灵感源于苏格拉底的“精神助产术”,将哲学理念转化为由Solver(学生)、Teacher(导师)与Generator(学徒)构成的三智能体自进化系统[9][13] - 三者构成闭环自进化系统:Solver的弱点驱动Teacher出题,Teacher的行为被Generator学习,Generator产出的新问题又反哺Solver训练,全程无需人类干预[13] - Solver通过在线偏好优化(Online DPO)从成功与失败轨迹中自我修正[16][20] - Teacher基于Solver的错误,动态生成针对性新问题以暴露其知识盲区[15][17] - Generator通过价值加权监督微调(WSFT)模仿Teacher的出题策略,实现课程的规模化生成[15][18] 实验结果与性能表现 - 在7个数学推理基准上,Socratic-Solver-8B平均准确率达56.1%,相比MetaMath和WizardMath(平均40.7%)绝对提升15.4个百分点[25] - 在高难度竞赛题上优势更显著,例如在AIME-24上达到28.4%准确率,相比静态增强方法的12.3%提升16.1个百分点;在Olympiad上达到55.1%,相比35.9%提升19.2个百分点[26][32] - 仅用100个种子问题启动的Socratic-Generator-32B,其合成数据质量已超越顶级闭源大模型,其问题有效性达95.6%,接近GPT-5的95.8%,远超其基座模型Qwen3-32B的89.1%[27][28] 工程价值与实施细节 - 训练流程高度工程友好,Solver训练仅需8×NVIDIA H20 GPU,Teacher推理使用16×AMD MI308X,具备轻量、可复现、高性价比的特点[30][33] - 种子选择协议精心设计,100个种子问题来自MATH数据集Level 2–4,确保Solver初始成功率在50%上下,并均匀覆盖7个数学子领域,为自进化提供高质量“引信”[19][22][23] - 框架设计通用,可扩展至代码等其他推理领域,评估采用MathRule + LLM Judge双验证机制,确保结果可信[33][34]
无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」
机器之心· 2025-10-23 13:09
长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任 务,同时「VAE + Diffusion」的范式在训练与推理效率上也存在显著瓶颈。 清华大学智能视觉团队和快手可灵团队联合推出《Latent Diffusion Model without Variational Autoencoder》与近期爆火的谢赛宁团队 RAE 工作不谋而合,但在总体 设计思路与研究重点上有所差异。 本篇文章通过直接结合预训练视觉特征编码器(如 DINO、SigLIP、MAE)结合残差信息学习预训练视觉特征编码器丢失的图片重建信息与专门训练的解码器,有 效替代了传统 VAE,提升了表示质量与效率。 本文提出的系统性框架称为 SVG ( S elf-supervised representation for V isual G eneration)。 论文标题: Latent Diffusion Model without Variational Autoencoder 该论文同样对传统 VAE + Diffusion 的局限性进行了分析,发 ...
搜索智能体的关键一课:先立目标,再照镜子
机器之心· 2025-10-23 13:09
近期,上海人工智能实验室及合作单位提出了一个简单而有效的思路:让搜索智能体像人一样,先「立目标」,再「照镜子」。具体而言,模型在每一次搜 索前都要明确「我想找什么」(goal-oriented planning),搜索后再判断「是否找到」(self-reflection)。 我们将这一思路实现为 RE-Searcher,并在多个开放域问答与多跳推理任务上取得了新 SOTA 表现,同时显著提升了对环境噪声与搜索脆弱性的抵抗力。 随着 AI 能力不断增强,它正日益融入我们的工作与生活。我们也更愿意给予它更多「授权」,让它主动去搜集信息、分析证据、做出判断。搜索智能体正 是 AI 触达人类世界迈出的重要一步。 然而,现实世界的搜索环境并不总是「信息增益」的来源;它也可能放大微小偏差、把模型带入错误轨道。如何让搜索智能体在复杂环境中更稳健,成为关 论文标题:RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection 论文链接: https://arxiv.org/abs/2509.26048 本文要点: 键问题。 ...
10个视频9个看走眼:连真视频都打Sora水印碰瓷,这世界还能信啥?
机器之心· 2025-10-23 13:09
机器之心报道 编辑:杨文 AI 检测准确率高达 98.9%,也防不住有人给真视频 P 上 Sora 水印。 前段时间刷到一个视频,标题就是「中俄混血女明星回应地下室打婆婆传闻」,试问谁看了这个标题能不燃起熊熊的八卦之心? 视频来源: B 站 up 主流行音乐研究院 这个一口机车味、白眼翻上天的女星到底是谁?我拿着视频在编辑部问了一圈,都说不出个所以然来。不过有同事看出了端倪,后面的签名板、话筒上媒体 logo 全是鬼画符,又是 AI 的手笔。 这类 AI 造假视频看多了,造成的后果就是在互联网上冲浪,看啥都像 AI 生成的。 上周末在群里刷到一个飞机行李架起火的视频,我的第一反应就是:咦,假的吧?毕竟故意模糊画质一直是 AI 造假视频惯用伎俩。 直到它登上了微博热搜,脸被打的 piapia 响。 这里面有些 AI 视频挺好识别,主要看细节,比如 AI 生成的打糕视频木槌多次打到手,或者画质过于高清,抑或是动作没有起伏变化总是不断重复。 不过寿喜火锅、烤面包等视频辨认难度极大,AI 对于细节的把控很精准,而且这还是在有参照物进行比较的情况下,如果是在抖音「为你推荐」页面随机刷到这 样的视频,大多数网友不会去质疑 ...
谷歌最强AI,被港科大开源超了?让海外创作者喊出「King Bomb」的P图大杀器来了
机器之心· 2025-10-23 13:09
「Photoshop is dead」,已经成为最近 AI 创作者圈中讨论最热的话题之一。 随着图像编辑与生成模型进入到了又一个集中爆发期,这个专业创意软件长久以来的王座地位受到了前所未有的冲击。 尤其是引领这波多模态生图技术升级潮流的谷歌 Nano Banana 以及字节 Seedream4.0、阿里 Qwen-Image-Edit-2509,它们涌现出了更多新的能力与玩法,比如 OOTD 穿搭、文字渲染、生成电影分镜。在无需掌握深度修图技能的前提下,这些模型使得创作者开始更多地关注「如何让生图结果更可控、更有创意、更具产 品化价值。」 | 机器之心原创 | | --- | 编辑:杜伟 从技术路线来看,以 Nano Banana 为代表的模型通过多模态指令,将语言理解、视觉识别与生成控制等不同的能力融合在一起,实现更自然的创作体验。不过,随 着使用场景的不断拓展,这类指令驱动的编辑与生成在实际操作中也逐渐暴露出了一些不容忽视的局限。 比如编辑任务中通常依赖的语言指令有时会描述不清,需要结合参考图像以及额外的文本说明;生成任务对于具体物体表现良好,但处理起抽象概念(发型、妆 容、纹理、打光、风格等)来往往力不 ...
攻克长文档与多模态挑战,Paper2Video实现学术视频的自动化生产
机器之心· 2025-10-23 10:22
研究背景与挑战 - 学术展示视频制作高度依赖人工,通常需要数小时才能产出几分钟的视频,效率低下且成本高昂[4] - 学术展示视频生成面临三大独特挑战:来源于完整学术论文的长文档与高密度输入、需要同时生成并对齐多个模态通道、缺乏专门针对知识传递和学术可用性的评价标准[4] - 现有自然视频生成模型和简单的幻灯片加语音拼接方法难以胜任学术视频生成任务[4] Paper2Video评价基准 - 基准收集了来自近三年顶会的101篇论文及其作者录制的展示视频,涵盖机器学习、计算机视觉与自然语言处理领域[10] - 每个样例包含论文LaTeX工程、幻灯片、展示视频、讲者肖像与语音样本,论文平均13.3K字、44.7幅图表,展示视频平均16页幻灯片、时长6分钟[10] - 基准提出了四个评价指标:Meta Similarity衡量类人相似度,PresentArena评估类人一致性,PresentQuiz测试信息传递性,IP Memory反映学术影响力[7][13][16] PaperTalker多智能体框架 - PaperTalker是首个支持学术展示视频生成的多智能体框架,以研究论文、讲者图像与语音样本为输入,自动生成包含幻灯片、字幕、语音、光标轨迹和讲者视频的完整展示视频[17] - 框架由四个关键模块组成:Slide Builder基于论文内容生成LaTeX Beamer幻灯片,Subtitle Builder生成逐句字幕,Cursor Builder实现光标时空对齐,Talker Builder合成个性化讲者视频[18][23] - 框架通过模块化的多智能体协作,实现了可控、个性化、学术风格化的展示视频生成[18] 技术创新与优化 - 提出Tree Search Visual Choice布局优化机制,将低效的多轮参数搜索转化为高效的单轮视觉判别,实现图像尺寸与布局的自动优化[21][24] - 引入UI-Grounding和WhisperX模型实现光标在时间和空间上的精准对齐,通过提供显式空间线索帮助观众定位关键信息[23][25] - 采用并行化的talking-head生成机制,将讲者生成过程划分为独立的幻灯片片段并行执行,实验证明实现了超过6倍的加速[26] 性能评估结果 - 在Meta Similarity指标上,PaperTalker在幻灯片、字幕和语音的相似度上均取得最高分,与人类作品最为接近[29][31] - 在PresentArena观感质量对比中,PaperTalker获得最高胜率,完整版本比去掉讲者和光标的变体更受偏好[31] - 在PresentQuiz知识传递测试中,PaperTalker的问答准确率达到17.0%,显著优于其他基线方法[29][31] - 在IP Memory学术记忆度方面,PaperTalker达到50.0%的表现,引入讲者视频显著提升了记忆效果[29][31][41] 效率与成本优势 - PaperTalker在生成成本上最低,仅为0.001美元,总耗时48.1分钟,相比非并行版本实现6倍加速[34][35] - 效率优势主要来自三个方面:基于Beamer的幻灯片生成减少token消耗、轻量化的tree search visual choice后处理、并行的talking-head生成机制[35] - PaperTalker仅消耗62K token,显著低于PresentAgent的241K token,同时时间成本也大幅降低[34]
刚刚,谷歌重大突破!量子计算首次可验证,登《Nature》封面
机器之心· 2025-10-23 10:22
核心观点 - 谷歌宣布其全新的量子回声算法在Willow量子芯片上实现了可验证的量子优势,解决特定问题的速度比最好的传统超级计算机快13000倍,在数小时内完成了需要Frontier超级计算机大约3.2年才能完成的计算[1] - 这是量子计算机首次在真实硬件上成功运行可验证的算法,标志着量子计算向实用性发展迈出重要一步[2][13][6] 技术突破与性能表现 - 量子回声算法通过测量OTOC(out-of-time-order correlator)这类量子可观测量的期望值来描述量子动力学的混沌行为,其结果是可验证的,即使在不同的量子计算机上运行也保持不变[4][14] - 该算法在谷歌105个量子比特的Willow芯片上运行,通过四个步骤实现:正向运行操作、扰动一个量子比特、反向运行操作、测量结果,其信号因相长干涉而被放大,测量极其敏感[16][18][19][20] - 此次突破建立在谷歌过去六年的关键进展之上,特别是2024年推出的Willow芯片显著抑制了误差,解决了近30年来的核心难题[5][21] 算法原理与硬件要求 - 量子回声算法的实现要求量子硬件具备两个关键特性:极低的误差率和高速的运算能力[22] - 该算法模拟的是一个真实的物理实验,不仅能处理复杂系统,还要求在最终计算中具备极高的精确度,其结果可通过其他同等质量的量子计算机进行交叉验证[21][22] 应用前景与验证实验 - 量子回声算法可用于研究自然界中各种系统的结构,从分子、磁体到黑洞[9] - 该算法在药物研发和材料科学领域有巨大潜力,可借助量子计算增强的核磁共振(NMR)来研究分子结构,例如研究潜在药物与靶标的结合方式或表征新型材料的分子结构[6][25][26] - 在与加州大学伯克利分校的合作验证实验中,该算法成功研究了包含15个和28个原子的分子,量子计算结果与传统NMR结果一致,并揭示了后者通常无法获得的额外信息[26] 行业影响与意义 - 这项研究成果标志着量子硬件不仅在理论上,而且在实验中展现出卓越优势,为实用且可扩展的量子计算铺平了道路[8] - 这种可重复、超越经典计算的能力是实现可扩展验证的基础,让量子计算机离成为实用科研工具更近了一步[15] - 公司首席执行官Sundar Pichai表示,这是Willow芯片首次实现可验证的量子优势,是迈向量子计算首次实际应用的重要一步[6]
Meta AI大裁员,裁到了田渊栋?
机器之心· 2025-10-23 10:22
公司战略调整 - Meta在其人工智能部门裁减约600个职位,调整波及FAIR、AI产品以及基础设施团队[1] - 公司于今年8月将超级智能实验室拆分为四个小组:FAIR、超级智能、产品和基础设施,重组目标为削减层级、加快决策[10] - 公司战略重心从FAIR倡导的开放式基础研究转向超级智能军备竞赛,FAIR研究成果被要求整合到TBD Lab进行的更大规模模型运行中[10] 组织架构与人员变动 - 自重组以来,FAIR部门员工争先恐后试图加入Wang的团队,未能成功者面临被裁命运[10] - FAIR研究科学家总监田渊栋在社交媒体上开始在线求职,尚不清楚是主动离职还是被裁[7] - FAIR前任领导者Joelle Pineau已于今年早些时候离职,作为FAIR灵魂人物的LeCun因不满公司对学术自由和开放发表的限制而考虑辞职[1][10] 资源重新配置 - 公司在裁减FAIR职位的同时,为新成立的超级智能团队大举招聘,并从OpenAI、谷歌、微软等公司高薪挖角大量顶尖研究员[10] - 公司发言人确认裁员消息,称公司正聚焦于提升AI产品落地效率[3] - 公司成立虎队招聘小组,帮助受影响员工在公司内部寻找新岗位,并继续招聘具备AI原生能力的业界领先人才[13] 技术基础与历史贡献 - FAIR于2013年由Meta创建,致力于先进机器智能的目标,为Meta提供了核心技术、开源工具和前沿探索[15][16][19] - FAIR最重要贡献之一是开发并开源PyTorch,该框架于2016年推出,已成为全球学术界和工业界首选的深度学习框架之一[19] - 在生成式AI竞赛中,FAIR通过Llama系列模型为Meta确立独特战略地位,从Llama 1到Llama 3坚持开源策略,使其成为开放AI生态的领导者[20][22]