机器之心

搜索文档
强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?
机器之心· 2025-05-12 12:31
核心观点 - CoRT(Chain-of-Recursive-Thoughts)是一种在CoT(Chain-of-thought)基础上加入递归思考的新方法,旨在提升语言模型的推理能力 [2][3] - CoRT通过结构化自我批判和递归思考模式,让AI模型生成替代方案并选择最佳响应,类似于人类的反思性思维 [4][5][6] - 尽管CoRT在GitHub上两周内获得近2k星标,但部分观点认为其原理并非创新,类似方法已在2023年论文或现有模型(如Gemini 2 5 Pro、Qwen)中应用 [7][8][9] 技术原理 - CoRT工作流程包括自我评估、生成竞争性替代方案、迭代优化和动态思维深度四个步骤 [10] - 具体实现中,AI首先生成初始响应,决定思考轮次,每轮生成3个替代响应并评估选择最优解,最终输出最佳结果 [10] 实际效果 - 在Mistral 3 1 24B模型测试中,CoRT使编程任务表现从"一般般"提升至"极佳",例如井字棋游戏代码从CLI升级为OOP实现 [11][12] - 项目仍处早期开发阶段,需通过脚本或Shell配置运行,依赖项安装后即可使用 [11]
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
机器之心· 2025-05-12 12:31
多模态奖励模型R1-Reward的核心创新 - 提出StableReinforce算法解决现有RL方法训练不稳定的问题,通过Pre-CLIP策略和优势过滤器(Advantage Filter)优化数值计算过程[21] - 引入一致性奖励(Consistency Reward)机制,使用裁判模型(Qwen2.5-VL-7B-Instruct)验证分析过程与最终答案的逻辑一致性[25][26] - 采用渐进式训练策略:先用GPT-4o生成20万条带思考链的SFT数据,再筛选高难度样本进行RL训练[27][30][39] 技术实现细节 - 将奖励建模转化为基于规则的RL任务,设计包含格式奖励、结果奖励和一致性奖励的复合奖励函数[26][31] - 改进PPO/Reinforce++算法存在的两大问题:概率比值(ratio)计算导致的数值溢出,以及优势归一化引发的训练不稳定[18][19] - 训练数据集R1-Reward-200k包含20万条多模态偏好数据,通过GPT-4o标注难度分级[12][27] 性能表现 - 在VL Reward-Bench等基准测试中超越SOTA模型8.4%-14.3%,推理时采用多次采样投票策略可进一步提升至85.3%(K=5)和86.47%(K=15)[12][35] - 模型输出长度减少15%显示推理效率提升,展现出类似人类的反思纠错能力[12][36] - 已在快手短视频/电商/直播场景实现工业化应用,包括标签识别、多视频相关性判断等[2] 算法比较 - PPO通过min/clip操作限制策略更新幅度,但直接应用于奖励模型会导致数值不稳定[15][17] - Reinforce++在PPO基础上增加KL散度惩罚和奖励归一化,但仍存在冷启动问题[16][19] - StableReinforce创新性地在指数计算前进行Pre-CLIP,并采用3-sigma规则过滤异常优势值[21] 未来方向 - 探索更先进的推理时扩展方法超越简单投票策略[38] - 优化训练策略以进一步释放模型潜力,如Any Correct策略在K=15时接近100%准确率[35] - 增强奖励模型基础能力,解决长思考链冷启动问题[27][30]
现在的大学生,不用大模型才是异类
机器之心· 2025-05-11 11:20
教育行业AI应用现状 - 北美顶尖大学中AI完成作业、写论文已成为常态,近90%学生使用ChatGPT辅助作业[1][11] - 生成式AI工具(ChatGPT/Gemini/Claude/Copilot)已渗透教学全流程:笔记整理、论文撰写、编码调试等[12] - 学生开发出Interview Coder等作弊工具通过科技公司面试,获亚马逊实习机会但主动放弃[10] 学术诚信体系冲击 - 英国研究显示97%的AI生成作业未被教授识别[20] - Turnitin等检测工具误判率高,非母语作业更易被误标[21] - 学生采用多AI系统"文本洗稿"策略规避检测,经3次转码后AI概率显著下降[24] 教育模式变革挑战 - 传统写作课程被视作"编篮子"般的过时技艺,人文学科面临生存危机[13][26] - 部分院校尝试回归纸笔考试/口试,但整体仍缺乏有效监管框架[15] - 教育成本压力下,76%职校生认为教育投入值得,仅50%大学生持相同观点[27] 商业与技术创新 - OpenAI推出ChatGPT Edu学术版,考试季免费开放Plus订阅吸引学生[35] - 创业者开发Cluely实时辅助系统,获530万美元融资并进军可穿戴设备领域[36][37] - 科技公司高管质疑程序员岗位必要性,反映AI对职业教育的深层冲击[26]
Copilot上大分,仅数天,陶哲轩的估计验证工具卷到2.0!刚刚又发数学形式化证明视频
机器之心· 2025-05-11 11:20
陶哲轩的开源证明助手项目 - 菲尔兹奖得主陶哲轩开发了一个开源的概念验证软件工具,用于验证涉及任意正参数的给定估计是否成立,该工具能够处理X≲Y或X≪Y形式的不等式[2] - 该工具已升级到2.0版本,改进为一个基础的证明助手,能够处理命题逻辑,并模仿Lean证明助手的功能,由Python符号代数包sympy提供支持[3] - 工具支持全自动证明,但陶哲轩更关注半自动交互式证明,用户提供高级策略,助手执行必要计算直至证明完成[3] 项目技术细节 - 项目使用Python开发,是一个轻量级证明助手,功能逊于Lean等完整证明助手,但适合验证简短而繁琐的任务如不等式或估计推导[5] - 工具支持渐近估计,陶哲轩在Sympy中实现了量级形式化,利用Sympy的「is_number」标志区分标准和非标准数[9] - 工具通过线性算法策略如「Linarith()」简化问题,支持情况拆分和树状证明结构,并能处理低阶项[8][10] 项目应用与扩展 - 陶哲轩计划开发用于估计符号函数的函数空间范数工具,创建策略部署Holder不等式和Sobolev嵌入不等式等引理[11] - 目前工具仅有一个概念验证引理即算术平均-几何平均引理,陶哲轩欢迎贡献新数据类型、引理、策略或示例问题[11] - 工具已上传至GitHub,陶哲轩依赖大语言模型如Github Copilot理解Python和sympy细节[3][5] 数学形式化证明实验 - 陶哲轩尝试利用GitHub Copilot和Lean证明助手半自动形式化一页纸的数学证明,约33分钟完成,依赖工具处理逻辑细节[13][14] - 实验证明AI工具可代劳繁琐推理,让人专注于表达而非合理性,尤其适合结构不强、技术推导为主的证明[16] - 实验暴露了Lean项目协作工具的问题,如blueprint工具不支持多证明版本管理[16]
SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!
机器之心· 2025-05-11 11:20
Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而,我们常见的电影片段通常是由导演在一 个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如,在拍摄赛车追逐的场景时,镜头通常跟随赛车运动,并通过扣人心弦的超车时 刻来展示赛事的白热化。而如今的视频生成模型无法实现 3D 场景中目标、相机联合控制的文本到视频创作,限制了 AI 影视制作的能力。 近期,可灵研究团队在「3D 感知可控视频生成」领域做出了首次尝试,推出了 电影级文本到视频生成框架 CineMaster ,允许用户在提供全局文本描述的 基础上,通过提出的交互式工作流辅助用户像专业导演一样布置场景,设定目标与相机的运动,指导模型生成用户想要的视频内容。 目前该论文已录用于 SIGGRAPH 2025。 论文地址:https://arxiv.org/abs/2502.08639 项目主页:https://cinemaster-dev.github.io/ CineMaster 支持 3D 感知的目标、相机运动控制 a) 目标相机联合控制 论文标题:CineMaster: A 3D-Awar ...
转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性
机器之心· 2025-05-11 11:20
研究背景 - 基于视频生成模型的可交互世界生成近期受到广泛关注,但长时序一致性仍是未解决的挑战[1][5] - 谷歌Genie 2、阿里The Matrix、Meta Navigation World Models等现有方法在生成质量与交互性上有进展,但长时一致性问题突出[5] - 传统方法在视角转换时场景内容会显著变化,缺乏连续性[6][7] 模型创新 - WorldMem通过引入记忆机制(记忆库+贪心检索+融合模块)实现长时序一致生成[8][18][19] - 记忆库持续存储关键历史信息(图像帧+位姿/时间戳),采用贪心匹配算法高效检索[18][21] - 记忆融合模块通过跨注意力机制动态关联历史与当前帧,增强空间一致性[20][22] - 状态嵌入设计(位姿Plücker坐标+时间MLP映射)提升时空表达精度[25] 技术实现 - 基于Oasis和Conditional DiT构建生成主干,采用Diffusion Forcing训练策略[17] - 记忆读写模块支持历史信息存取,记忆融合模块引导当前生成[15][19] - 相对嵌入机制和帧独立检索策略优化信息利用效率[22][25] 性能表现 - 在Minecraft数据集上: - 短时生成PSNR达27.01,超越Diffusion Forcing的26.56[24] - 长时生成(300帧)PSNR保持25.32,显著优于基线方法的18.04[24][26] - rFID指标降至15.37,远低于基线51.28[24] - 支持动态交互(如雪地放置南瓜灯融化积雪、种植作物生长过程)[13][31] - 真实场景验证显示记忆机制增强一致性[33] 行业应用 - 视频生成模型(如WAN 2.1、Hunyuan)展示出复杂环境仿真潜力[36] - 交互式视频生成模型有望成为虚拟仿真、交互智能领域的核心技术[37][38] - WorldMem为构建持久、交互式虚拟世界提供关键技术路径[38]
早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗?
机器之心· 2025-05-10 21:10
本期通讯总计 21681 字,可免费试读至 6% 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 机器之心PRO · 会员通讯 Week 19 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. 早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗? 什么是Native多模态模型?相较目前流行的「晚融合」方案,「早融合」的Native多模态模型的训练过程有何不同?苹果公司 近期发布的「NNM」技术报告中,有哪些反直觉的新发现?近期业内有哪些获得较好表现的多模态模型?「早融合」是否正在 成为主流?... 2. Agent产品,快者为王?Anthropic 和 Databrick CEO 对话解读 Dario Amodei 为什么说「AI 的未来是 Agents」?数据的「Scaling Law」依然乐观?围绕 Agents 进行数据创新?MCP和 A2A范式下,企业怎样维护数据系统安全?Agents产品迭代的关键缺口如何突破?人类如何把握 AI 技术的双刃剑?... 本期完整版通讯含 2 项专题解读 + 29 项 AI ...
Agent产品,快者为王?Anthropic 和 Databrick CEO 对话解读
机器之心· 2025-05-10 14:07
01 在谈论Agents之前,人们应该先关注什么 - 人类低估了AI的好处和风险,需要关注风险以实现积极的未来 [6][7] - 短期内人类可通过比较优势在经济中发挥作用,但长期需重新思考经济组织方式,包括加强全球合作、政策支持及AI风险管理 [6][7] - AI应用将覆盖整个经济领域并带来超越经济层面的社会变革,但讨论时缺乏足够想象力和具体案例 [7] - AI技术落地实际效益取决于传统企业与AI公司的合作及市场推广,需让滞后经济领域快速适应创新技术 [7] - AI的未来是Agents,企业需围绕Agents创新开发能自主调用工具、完成数据交互的产品和服务 [7] - Block利用语音识别和生成式AI开发通过语音指令自动设置店铺信息的Agents [7] - AT&T结合传统机器学习和生成式AI分析通话记录,欺诈攻击减少80% [7] - AI可在安全条件下量化数据价值并加速产品迭代,两家公司合作使用Unity Catalog工具管控数据治理风险 [8] - AI产品快速迭代需借助RAG技术,两家公司接入MCP协议以使用外部数据资源 [8] 02 数据价值无可替代,但数据治理风险如何破解 - 数据代表企业积累的知识与智慧,是与AI能力最相辅相成的要素,可用于微调模型、提供上下文或供智能体分析 [10] - 企业专有数据是构建竞争壁垒的核心,行业特有数据(如制药实验数据、金融交易记录、用户行为数据)对训练AI模型至关重要 [10] 03 Anthropic为何仍乐观看待「Scaling Law」 - Scaling Law未达上限,但实用性需预训练之外的优化,需解决数据耗尽和成本问题 [9] - 多维度协同优化和混合推理模型是关键,模型迭代速度将继续保持快速 [9]
只有通过海量测试才能抓住泛化性的本质吗?
机器之心· 2025-05-10 11:42
核心观点 - 文章探讨了神经网络泛化性的本质问题,提出通过分析神经网络内在的符号化交互概念复杂度分布来判断其泛化性,发现可泛化交互呈现衰减形分布,不可泛化交互呈现纺锤形分布 [1][2][13][15] 大模型时代呼唤更高效的泛化性分析策略 - 当前神经网络泛化性研究主要停留在高维特征空间分析,缺乏对表征层面的本质解释 [4] - 人类通过中层表征逻辑交流实现智能对齐,这种策略比统计正确率更直接高效 [5][6] 两个本质的数学问题 - 问题1:证明神经网络精细表征逻辑可被简洁符号化解释,已通过「等效交互解释理论」部分解决 [9] - 问题2:如何通过符号化交互概念直接判断泛化性,这是本文主要研究方向 [13] 符号化交互概念复杂度分布 - 交互概念复杂度用阶数(包含输入单元数量)量化,高阶交互更复杂 [15] - 可泛化交互主要呈现低阶衰减形分布,不可泛化交互主要呈现中阶纺锤形分布 [15][16] - 过拟合阶段新出现的交互呈现纺锤形分布,印证不可泛化交互的特征 [18][20] 实验验证 - 注入噪声或对抗扰动后,新出现交互呈现纺锤形分布,且强度随噪声增加而增大 [21][23] - 分解算法能有效分离可泛化(衰减形)和不可泛化(纺锤形)交互分布 [35][37] - 训练初期主要去除纺锤形噪声交互,过拟合阶段重新学习纺锤形交互 [40] - Qwen2.5-7b模型比DeepSeek-r1-distill-llama-8b模型具有更多纺锤形不可泛化交互 [41] 理论建模 - 提出参数模型分别建模纺锤形分布(不可泛化交互)和衰减形分布(可泛化交互) [24][25][28] - 开发算法将神经网络交互分布分解为可泛化和不可泛化两部分 [29]
9年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来
机器之心· 2025-05-10 11:42
核心观点 - OpenAI研究科学家Dan Roberts预测强化学习将在未来AI模型构建中发挥更大作用,并最终可能创造出能够发现新科学的模型 [2] - 通过扩展强化学习规模,AI模型可能在未来9年内实现AGI(人工通用智能),甚至重现爱因斯坦级别的科学发现 [57][56] 模型性能与扩展 - OpenAI发布的o1和o3模型展示了测试时间扩展的重要性,模型表现随思考时间增加而提升 [6][7][9][12] - o3模型能够在一分钟内完成复杂的物理计算(如量子电动力学问题),而人类专家需要3小时 [14][19][31] - 模型性能与训练量呈正相关,强化学习将成为未来训练的主导方法 [34][37][40] 强化学习的未来方向 - OpenAI计划颠覆传统预训练与强化学习的比例,将强化学习从“樱桃”变为“超大樱桃” [42] - 公司计划筹集5000亿美元用于大规模计算基础设施扩建,以支持强化学习的扩展 [46][48] - 测试时间计算和强化学习训练将成为扩展科学的新方向 [53] AI科学发现的潜力 - 当前AI模型已能重现教科书级计算,但目标是为科学前沿做出贡献 [31] - 提问方式可能是限制AI科学发现的关键因素,需要优化问题设计 [54] - 根据趋势预测,到2034年AI可能具备8年连续计算能力,相当于爱因斯坦发现广义相对论的时间 [56][57]