Workflow
机器之心
icon
搜索文档
500万人在线围观,Claude Code创建者的13条独家实战秘籍爆火
机器之心· 2026-01-04 13:43
文章核心观点 - Claude Code的创建者Boris Cherny展示了其个人高效使用该AI编程工具的工作流,其配置简单,开箱即用性能出色,但工具本身高度可定制,团队内使用方式各异[1][2] 工作流核心策略 - **五线并行**:在终端同时运行5个Claude窗口并编号,开启系统通知以便及时响应[3] - **多端无缝衔接**:在网页端同时运行5到10个Claude任务,并利用`&`命令将本地会话转至后台或使用`--teleport`命令在终端与网页端间传送进度,甚至通过iOS版App启动会话后在电脑端继续[5][6][7] 模型与知识管理 - **全力投入Opus 4.5**:为所有任务启用带Thinking模式的Opus 4.5模型,该模型虽更大更慢,但更聪明且更擅长调用工具,无需过多引导,从结果看通常比小模型更快完成任务[9] - **共享知识库**:团队在Git仓库中共用一个`CLAUDE.md`文件,每周多次更新,用于记录Claude的错误并制定规则,确保其不再犯同样错误[10] - **持续复利**:在代码评审时通过`@.claude`将同事PR中的规范沉淀到`CLAUDE.md`中,并通过安装GitHub Action实现“复利工程”[12] 任务执行与自动化 - **谋定而后动**:多数任务从Plan模式开始,通过反复沟通确认方案后,切换到自动接受修改模式让Claude直接完成[13] - **打造斜杠命令**:将每日重复的“内环”工作流封装成斜杠命令,避免重复输入提示词,命令存放在`.claude/commands/`下并提交至Git,例如每天使用几十次的`/commit-push-pr`命令[13][14] - **善用子智能体**:使用特定子智能体自动化常见流程,如`code-simplifier`用于简化代码,`verify-app`用于端到端测试[16] - **自动代码美化**:使用PostToolUse钩子格式化代码,处理最后10%的细节以避免CI阶段报错[18] 权限、工具与长任务管理 - **权限管理**:不使用危险跳过权限提示,而是通过`/permissions`预先授权当前环境下安全的常用Bash命令,配置保存在`.claude/settings.json`中供团队共享[20] - **工具全家桶**:Claude Code通过MCP服务器操作所有工具,如搜索并发送Slack消息、运行BigQuery查询或抓取Sentry日志,Slack的MCP配置保存在`.mcp.json`中[22] - **长时间任务处理**:对于耗时任务,采取三种策略:让Claude完成后启动后台智能体验证;使用Stop钩子进行确定性检查;使用`ralph-wiggum`插件,并结合`--permission-mode=dontAsk`或沙盒环境中的跳过权限模式,使Claude不被权限弹窗干扰[22] 质量保证关键 - **构建反馈闭环**:为Claude提供验证自身工作的途径是获得高质量结果的关键,可将结果质量提升2到3倍,例如通过Chrome插件测试网页代码的每一个改动,自动打开浏览器测试UI并迭代直至体验丝滑,验证方式因领域而异,如运行Bash脚本、测试套件或在模拟器中运行App[24][25]
前OpenAI CTO押注的赛道,被中国团队抢先跑通,AI「下半场」入场券人人有份
机器之心· 2026-01-04 11:01
AI行业趋势:从预训练到后训练 - 过去几年AI领域的主旋律是预训练,追求更大的模型、更多的数据和更长的训练周期,但该阶段已趋于饱和[9][10] - 当前大模型部署后存在瓶颈,参数被“冻住”,无法从真实交互中持续学习进化,实际使用效果不稳定[10][23] - 强化学习被视为破局关键,能让模型从“背题”走向“推理”,带来惊人的泛化性和样本效率[11][12] - 2026年的主旋律是后训练,Gemini、DeepSeek V3.2、Kimi K2等多个前沿模型的技术报告都强调后训练仍是一片蓝海[13][14] 后训练基础设施的竞争格局 - 前OpenAI CTO Mira创立的Thinking Machines Lab押注后训练赛道,其产品Tinker定义了后训练API的新范式[16][17] - Thinking Machines在2025年7月完成了硅谷历史上最大的种子轮融资,金额达20亿美元,估值120亿美元[17] - 国内由95后青年科学家组成的Mind Lab推出了对标产品Mind Lab Toolkit,是世界第一家能够对标Thinking Machines Lab的公司[3] - Mind Lab的MinT平台比Thinking Machines更早实现了1T LoRA-RL,是业界在万亿参数模型上进行高效强化学习的第一个成果[3][25] Mind Lab与MinT平台的核心优势 - MinT是一个用CPU机器就能高效训练万亿参数模型的后训练平台,成本优化了十倍,一天即可完成一轮训练[3] - 平台兼容性强大,与Tinker API完全兼容,开发者可几乎零成本迁移[25] - 技术领先,采用LoRA技术,使多个训练和推理任务共享计算资源池,显著降低成本[31] - 在Kimi K2(万亿参数MoE)上实现端到端LoRA强化学习,仅用常规全参RL约10%的GPU资源(64块H800)即可完成训练[36] - 已支持Kimi K2 Thinking、Qwen3-VL系列等前沿开源模型,并优先支持π0等具身VLA模型,体现了中国公司在具身智能上的领先优势[31] MinT解决的核心问题与目标用户 - 核心价值是让用户只需关注数据和算法,平台自动处理集群调度、资源管理等复杂工程问题[31] - 主要解决强化学习普及的三大难题:训练不稳定、小模型难以收敛、算力成本高[35] - 目标用户是Agent领域创业公司和高校顶尖实验室,这些团队常被算力与训练框架限制[41][42] - 平台允许开发者仅用CPU机器进行训练验证,降低算法可行性验证成本[43] - 采用LoRA-RL技术将模型迭代周期从“按周”缩短到“按天”,服务于快节奏的产品开发需求[43] 团队背景与行业影响 - Mind Lab创始团队豪华,创始人Andrew毕业于MIT,首席科学家马骁腾博士毕业于清华大学自动化系[5] - 团队成员来自清华、MIT、CMU等高校,并有OpenAI、DeepMind等顶尖实验室工作经历[5] - 团队累计发表论文超100篇,总引用量超3万次[6] - MinT已获得顶尖高校和多个创业公司认可,应用场景涵盖基础研究到垂直行业[44] - 具体应用案例包括:清华大学黄高副教授团队用于RL研究、瑞铭医疗提升医疗编码准确率并落地数十家三甲医院等[51] - 2026年后训练将是中国AI弯道超车的下一个关键战场,Mind Lab致力于让中国团队在关键技术浪潮中实现自主可控[49][50]
ControlNet作者张吕敏最新论文:长视频也能实现超短上下文
机器之心· 2026-01-03 15:00
行业技术瓶颈 - 当前高质量AI视频生成模型普遍存在时长限制,通常只能生成上限约15秒的视频,且提高清晰度会进一步缩短时长[1] - 技术瓶颈在于长视频在模型内部会产生海量数据,一段60秒、480p、24帧/秒的视频会被拆解成超过50万个潜在token[2] - 模型为保持剧情连贯与画面一致,需保存长上下文记忆,这导致算力需求爆炸,普通显卡无法承受[3] - 这是自回归视频生成模型的核心矛盾:上下文越长画面越连贯,但计算成本也越高[4] - 现有妥协方案包括使用滑动窗口切掉历史以换取可运行算力,或对视频进行激进压缩以牺牲清晰度和细节[5],但这些方法往往会最先丢失决定画面真实感与一致性的高频细节[6] 创新解决方案 - 斯坦福大学张吕敏团队提出了一种专为长视频设计的记忆压缩系统新思路,旨在压缩的同时尽可能保留精细视觉信息[6] - 研究核心是提出一种神经网络结构,用于将长视频压缩为短上下文,并设计了一种显式的预训练目标,使模型能够在任意时间位置保留单帧中的高频细节信息[7] - 基线模型可以将一段20秒的视频压缩为约5k长度的上下文表示,同时支持从中随机检索单帧,并在感知质量上保持良好的外观保真度[8] - 该预训练模型可直接微调为自回归视频模型的记忆编码器,从而以较低的上下文成本实现长历史记忆建模,且仅带来相对较小的保真度损失[8] 技术架构与训练方法 - 研究采用两阶段策略:首先预训练一个专用的记忆压缩模型,目标是在任意时间位置上尽可能保留高保真帧级细节信息[11] - 预训练目标通过对从压缩历史中随机采样的帧最小化其特征距离来实现,确保模型在整个序列范围内都能稳健地编码细节信息[12] - 网络结构采用轻量级双路径架构:模型同时处理低分辨率视频流和高分辨率残差信息流,并通过将高分辨率特征直接注入Diffusion Transformer的内部通道,绕过传统VAE所带来的信息瓶颈,以提升细节保真度[12] - 核心创新在于预训练目标设计:模型学习将长视频历史H压缩为一个紧凑的上下文表示,同时保持对任意时间位置帧进行重建的能力[17] - 在训练中,模型从历史序列中随机选择一组帧索引Ω并掩蔽其余帧,必须仅依赖压缩后的表示来重建这些被选中的帧,这种随机化选择机制防止模型投机取巧,迫使其学习在整个时间序列范围内持续保留细节信息的表示方式[17][21] 模型微调与系统构建 - 借助预训练完成的记忆压缩模型,可通过对视频扩散模型(如WAN,结合LoRA微调)以及该压缩模型作为历史记忆编码器进行联合微调,从而构建一个自回归视频生成系统[26] - 最终得到的视频生成模型具备超长历史窗口(例如超过20秒)、极短的历史上下文长度(例如约5k),并且对帧检索质量进行了显式优化[27] 实验设置与数据 - 实验使用8 × H100 GPU集群进行预训练,并使用1 × H100s或A100s进行LoRAs微调,所有实验均在HunyuanVideo和Wan系列的基础模型上进行[30] - 数据集由来自多个网站的约500万互联网视频组成,其中约一半是竖屏短视频,其余为普通横屏视频[30] - 测试集包括由Gemini-2.5-pro编写的1000个故事板提示和4096个未在训练数据集中出现过的视频[30] 评估结果 - 定性评估表明,模型能够处理多种多样的提示和故事板,同时在角色、场景、物体和情节线方面保持一致性[34] - 定量评估引入了VBench、VBench2等平台的多个视频评估指标,本文提出的方法在多个一致性指标上表现出合理的分数[34][36] - 在视频内容一致性定量评测中,本文提出的方法(4×4×2)在衣物一致性(Cloth)上得分为96.12,身份一致性(Identity)为70.73,实例一致性(Instance)为89.89,ELO评分为1216[35] - 在更高压缩设置(2×2×2)下,衣物一致性得分提升至96.71,身份一致性为72.12,实例一致性为90.27,ELO评分为1218[35] - 用户研究和ELO分数验证了提出的架构在压缩和质量之间实现了有效的权衡[36] 消融实验与性能 - 消融实验的定量结果表明,本文方法在PSNR、SSIM等指标上取得了相对更优的性能[37] - 具体而言,提出的方法(4×4×2)PSNR为17.41,SSIM为0.596,LPIPS为0.171;在更高压缩率(2×2×1)下,PSNR达到20.19,SSIM为0.705,LPIPS为0.121[37] - 即便在4×4×2的较高压缩率条件下,该方法仍然能够有效保持原始图像结构[37]
4个月烧掉30亿Token,这位「菜鸟」程序员做出50多个产品,360万人围观
机器之心· 2026-01-03 12:13
AI驱动的编程范式变革 - 大模型的发展使编程从一项需要深厚专业知识的技能,转变为一场可与AI协作的“大型即时策略游戏”,降低了技术创造的门槛 [2] - 新范式下,技术能力的衡量标准从掌握具体语法转变为能否驾驭和调度整个系统 [7] - 这种变革使得通向代码世界的最高通行证不再是专业背景,而是探索的欲望 [7] 新型开发者的实践与产出 - 案例显示,一位不擅长传统编码的开发者在四个月内通过AI辅助消耗了**30亿个Token**,完成了大量项目 [3] - 其产出的具体项目包括:重新设计的个人网站、大约**50个**其他项目、一个获得**100多个stars**的开源社交媒体追踪器,以及一个被团队采纳并上线的“Factory Wrapped”产品功能 [10][11][23] - 其他实践项目还包括定制CLI工具(如用于客户支持的Pylon CLI)、一个自动执行多空交易的加密追踪器,以及一个AI指导的视频演示系统 [23] 核心工作方法论:CLI与系统思维 - 开发者完全在命令行界面(CLI)中工作,认为其优于网页界面,并能清晰观察工作过程 [13] - 工作流程通常为:在CLI中启动新项目,与模型交流提供上下文,切换到“规范模式”制定构建计划,然后让AI模型在高自主性模式下运行,开发者进行观察、错误介入和迭代测试 [13][15] - 强调通过精心编写和维护`agents.md`文件来定义操作手册和项目设置流程,以标准化和优化每次工作会话 [17][18] - 注重端到端测试,认为这能帮助早期发现低级bug [18] 技能演进与学习方式的改变 - 开发者通过实践真正理解了Bash命令的工作原理,并创建了自动化工作流程 [21] - 对虚拟专用服务器(VPS)从抽象理解到深入应用,将其用于运行需要持续在线的服务(如加密追踪器)和同步代码仓库 [21] - 学习方式从传统的“Hello World”式语法学习,转变为从构建项目的系统思维角度出发,理解各个组件(如前端、API、数据库)如何协同工作 [26][27] - 关键学习途径是直接向AI模型提问,将其视为“永远耐心的、在肩膀上的专家程序员” [25] 对工具、框架与行业生态的思考 - 认识到框架的价值不仅在于工具本身,更在于其代表的共识与生态,AI模型的智慧也根植于这些现有框架的数据中 [30] - 面对众多工具,准则应是“最快、最简、最远”,避免选择瘫痪,必要时可以自己创造工具 [37][38] - 开发者认为“氛围编程(Vibe-coding)”一词带有傲慢偏见,未能触及通过深度理解系统、拆解逻辑来改进构造的本质 [32] - 在AI时代,需要学习的核心技能是如何与AI合作,包括提供合适的提示、确保正确的上下文、组合各个部分以及持续优化系统 [24] AI时代下的创新与创造特征 - AI将产品原型的反馈循环提升到“光速”,允许极低的投入进行快速成型和验证,失败成本大幅降低 [34][35] - 行业正处于“软件大爆炸的前夜”,将涌现大量平庸和惊艳的项目,资深程序员也在高速发布开源工具,形成了一个丰富的“灵感库和零件厂” [35] - 创造过程以结果为导向的重组效率惊人,反馈即时,输出持续,开发者无需在起跑线过度纠结 [35] - 每个创意都可以成为随时抛出的“探针”,构建行为变得随时随地、随心所欲 [36]
LeCun在Meta还有论文:JEPA物理规划的「终极指南」
机器之心· 2026-01-03 12:13
文章核心观点 - 研究提出并验证了JEPA-WM(联合嵌入预测世界模型),该模型通过在高度抽象的表征空间内进行预测,而非像素级重建,旨在为智能体(如机器人)构建一个更理性的“大脑”,以提升其在物理世界中的规划能力[3][5] - 研究通过系统性的实验,揭示了驱动物理规划成功的关键因素,包括模型架构、目标函数和规划算法的选择,并最终提出了针对不同任务复杂度的最优配置方案[5][26] JEPA-WM核心方法 - 模型采用层次化的编码与预测架构,核心组件包括:使用预训练且冻结的ViT权重(如DINOv2/v3)的视觉编码器、捕捉机器人自身状态的本体感受编码器、将控制指令转化为特征向量的动作编码器,以及接收过去观测与动作序列以预测下一时刻状态嵌入的预测器[15] - 在训练中引入了多步展开损失,使模型不仅能预测下一帧,还能基于自身预测递归生成后续状态,并采用截断反向传播以提高训练效率[10] - 在动作信息干预预测过程上,对比了三种方案:特征调节、序列调节以及表现更优的自适应层归一化(AdaLN),AdaLN能有效防止动作信号在深层网络中“淡出”[16] - 规划被建模为在动作空间上的优化问题,智能体在其内部模型中“试运行”多条候选路径,通过最小化预测终点与目标嵌入向量之间的距离来寻找最优动作序列[11] 实验设计与关键发现 - 实验在多个模拟环境(Metaworld的42个操纵任务、Push-T、PointMaze)和真实机械臂数据集(DROID)上进行评估[13] - **规划器选择**:在成本曲线平滑的任务(如Metaworld)中,基于梯度的优化器(Adam/GD)表现优异;但在2D导航任务中,梯度法易陷入局部极小值,基于采样的交叉熵方法(CEM)凭借探索能力完胜;新引入的Nevergrad规划器在无需调参的情况下展现了与CEM相当的实力,尤其适合跨任务迁移[17][19] - **关键因素贡献度**: - 引入机器人内部状态信息(本体感受)能一致性地提高规划成功率,例如在Metaworld任务中减少机械臂在目标点附近的震荡[20] - DINO系列编码器在所有任务中均优于V-JEPA等视频编码器,尤其在需要精确感知物体位置的操纵和导航任务中,在视觉复杂度更高的真实数据(DROID)中,DINOv3的优势进一步扩大[23] - 动作调节技术中,AdaLN在平均性能上表现最强且计算效率更高[23] - 模型规模的影响取决于任务复杂度:在简单模拟环境中,增大模型规模(从ViT-S到ViT-L)可能因嵌入空间过于复杂而导致规划效率下降;但在复杂的现实数据(DROID)中,大容量编码器和更深的预测器则带来明确的正收益[25] - 在训练中加入多步展开损失(如2步)能显著改善预测器的长时稳定性,对于最复杂的DROID任务,最佳展开步数甚至需要达到6步[25] - 训练上下文长度存在权衡:至少需要2帧上下文来推断速度信息,但盲目增加上下文长度(如W > 5)反而有害[27] 提出的最优配置 - 针对不同任务复杂度提出了最优配置:在模拟器中使用ViT-S编码器配以AdaLN动作调节;在真实复杂场景(如DROID)中使用DINOv3 ViT-L编码器配以12层深度的预测器[26] - 在与DINO-WM和V-JEPA-2-AC等模型的直接较量中,该研究提出的模型在几乎所有维度上均取得了领先[28]
微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍
机器之心· 2026-01-03 12:13
模型核心突破 - 腾讯微信AI团队提出WeDLM,首次在工业级推理引擎优化条件下,使扩散语言模型的推理速度超越同等自回归模型[2][4] - 核心创新在于通过标准因果注意力实现扩散解码,解决了传统扩散模型因双向注意力与KV缓存不兼容导致的速度瓶颈[4][10] - 在数学推理等任务上,相比vLLM部署的自回归模型实现3倍以上加速,在低熵场景下加速比可达10倍以上,同时保持甚至提升生成质量[2][27] 技术原理与设计 - 提出“前缀可缓存性”关键指标,指出并行生成的价值取决于token转化为可缓存前缀的速度,这是影响推理效率的核心[11][31] - 采用拓扑重排序技术,将已观测token移至序列前端并保留逻辑位置,使标准因果注意力下每个待预测位置都能访问完整上下文[16] - 设计双流掩码训练策略,构建干净的“记忆流”和带掩码的“预测流”,以缩小训练与推理的分布差异[18] - 推理时采用流式并行解码,结合距离惩罚、即时缓存和动态滑动窗口机制,最大化前缀提交率,避免块边界等待开销[21][23][32] 性能表现:生成质量 - 基础模型评测中,WeDLM-8B平均得分74.72,超越基准模型Qwen3-8B的72.61分达2.1个点[24] - 在数学推理任务上提升显著:GSM8K得分90.20,提升4.2个点;MATH得分53.60,提升2.8个点[24] - 指令微调模型评测中,WeDLM-8B-Instruct平均得分77.53,超越Qwen3-8B-Instruct的75.12分达2.4个点,并领先于其他扩散模型[25] 性能表现:推理速度 - 所有速度对比均基于vLLM部署的自回归模型基线,确保公平[26] - 在不同熵值场景下速度差异显著:低熵场景实测达到1673.3 tokens/s,中熵场景为745.2 tokens/s,高熵场景为197.8 tokens/s[27][31] - 具体任务加速比:数学推理为3-6倍,代码生成为2-3倍,序列计数等低熵任务可达10倍以上,开放式问答为1.5-2倍[27] 模型训练与部署 - 模型基于Qwen2.5-7B和Qwen3-8B进行训练,使用了100B token进行继续预训练和10B token进行监督微调[22] - 该因果扩散框架天然兼容现有推理基础设施,如KV缓存、FlashAttention、PagedAttention和CUDA Graphs等[32] - 模型权重和代码已开源,可通过GitHub和Hugging Face获取,安装与调用方式简便[14][29]
陶哲轩:AI让数学进入「工业化」时代,数学家也可以是「包工头」
机器之心· 2026-01-03 09:35
文章核心观点 - 数学研究正经历一场由AI和形式化证明语言(如Lean)引领的“工业革命”,传统“手工业”模式濒临崩溃 [1] - 形式化工具与AI的结合将数学证明拆分为可独立验证的原子步骤,从根本上改变了数学的协作、思维和生产方式,有望显著加速数学研究进展 [2][9][22][28] 数学研究的现状与加速 - 传统数学研究包含大量枯燥的重复性劳动,如文献综述、调整他人论文参数和繁琐计算 [6][7] - 形式化项目效率大幅提升:Peter Scholze的“液态张量实验”项目将一个重要定理形式化耗时18个月,而20世纪的类似项目动辄需几十年 [7] - 大语言模型(LLM)现已能自动形式化单个证明步骤,实时减轻形式化过程中的苦力活 [9] 形式化对数学思维的影响 - 形式化迫使数学家更清晰地思考,暴露“隐形假设”和习惯性默认成立的条件,从而精简写作 [11] - 形式化催生了新的证明写作风格:从传统的线性推导,转变为提供一组相关事实,由自动化工具找出正确组合来完成证明 [12] - 形式化帮助清理低效或错误的思维习惯,例如通过自动化工具发现定理中未被使用的冗余假设,从而可能扩展工具的自然适用范围 [14][15] 形式化改变协作方式 - 形式化具备高度模块化结构,允许围绕非常具体的局部问题进行原子级的精细讨论和修复,无需理解整个系统 [21] - 在形式化项目中,修改已有证明比传统方式高效得多:例如,将PFR猜想证明中的常数从12更新为11,在一天内完成,而首次完整形式化耗时三周 [19] - 形式化工具与AI实现了不同技能背景人群之间的无缝协作,数学研究首次具备了真正分工协作的可能性 [27][28] 数学研究的“工业化”与角色演变 - 未来的数学研究将出现类似软件工程的分工模式,进行规模化、工业化的数学成果生产 [2][28] - 数学家的角色将被拓宽:一部分人将成为大型项目的“架构师”或项目经理,负责协调;另一部分人可能专精于形式化工作或使用AI工具,而非特定数学领域专家 [24][29] - 新的协作方式将降低研究门槛,允许“公民数学家”(非专业领域专家但具备特定技能的人)参与前沿研究,释放庞大潜在研究力量 [2][30][31] AI在数学研究中的定位与应用前景 - AI和自动化的优势在于处理人类不擅长或不愿做的枯燥、机械性任务,如大量数值计算、枚举和组合筛选 [34] - 在解析数论等领域,大量研究时间(例如超过70%)花费在繁琐、机械性的工作上,这构成了主要瓶颈 [35] - 自动化工具链有望将解析数论中非显式的常数计算结果变为显式并可自动更新,从而动态维护领域前沿状态,将原本需十年一次的更新工作缩短至几分钟 [36][37][38] - 形式化验证系统(如Lean)有望构建一个尽可能无错误、可互操作、可规模化扩展的可靠数学研究基础设施 [39] 新工具对研究路径的潜在影响 - 历史上,计算机的引入已催生结合数据和实验的新数学研究方式(如高斯通过手工计算素数提出分布猜想) [42][43][45] - 当前数学论文中“苦工”比例看似不高,是因为研究者下意识地避开了计算繁重的路径;若工具到位,研究者将能直接“碾过”这些障碍,实际可被自动化的潜在工作量远高于表面所见 [46][47] - 形式化工具通过提供基于可验证结构的信任,将极大消除因人际信任与沟通成本造成的研究瓶颈,释放生产力 [47][48][49]
Sebastian Raschka万字年终复盘:2025,属于「推理模型」的一年
机器之心· 2026-01-02 17:30
文章核心观点 - 2025年大语言模型领域的发展重点从单纯的参数规模扩展转向了推理能力的强化,以DeepSeek R1为代表的开放权重模型及其采用的RLVR和GRPO算法成为年度技术风向标,同时行业在架构、评估和工具使用等方面也取得了显著进展[1][3][4] 推理模型与算法进展 - 2025年是“推理之年”,DeepSeek R1的发布证明了通过强化学习(特别是RLVR和GRPO算法)可以开发出具有类似推理行为的模型,这改变了行业对模型改进方式的认知[5][6] - DeepSeek R1作为开放权重模型,其性能媲美当时最好的专有模型,并且其成本远低于预期,训练DeepSeek V3模型的成本估计约为557.6万美元,而在其基础上训练R1模型的额外成本仅需29.4万美元[9][10][12] - RLVR中的“可验证奖励”允许使用确定性方法为数学和代码等领域分配正确性标签,从而能够在大规模数据上对LLM进行高效的后训练[13][15][16] - 继DeepSeek R1之后,几乎所有主要的开放权重或专有LLM开发商都发布了其模型的推理(“思考”)变体,标志着RLVR和GRPO成为年度主导技术[19] 大语言模型开发重点演变 - 近年来LLM开发的重点呈现累积性演进:2022年是RLHF+PPO,2023年是LoRA等参数高效微调,2024年是中期训练,而2025年的焦点是RLVR+GRPO[20][21][22] - 预计未来发展方向包括:将RLVR扩展到数学和代码以外的领域、更多地关注推理时扩展(让模型在生成答案时花费更多资源以提升准确性)、以及持续学习(在不重新训练的情况下更新模型知识)[25][27][28][31] 大语言模型架构趋势 - 最先进的模型仍基于解码器风格的Transformer,但开放权重LLM普遍收敛于使用混合专家层以及分组查询注意力、滑动窗口注意力或多头潜在注意力等高效注意力机制[42][43] - 同时,行业也出现了更激进的效率调整架构,如Qwen3-Next和Kimi Linear中的Gated DeltaNets,以及NVIDIA Nemotron 3中的Mamba-2层,旨在实现随序列长度的线性扩展[43] - 预测未来几年基于Transformer的架构仍将主导高性能建模,但出于成本和效率考虑,Gated DeltaNet和Mamba层等高效工程调整将越来越普遍,文本扩散模型等替代方案仍处于实验阶段[53] 推理扩展与工具使用 - 2025年的进步不仅来自训练数据和架构的扩展,更得益于更好的训练流程(中期和后训练)以及推理扩展,后者让LLM能按需投入更多资源解决复杂任务[54] - 工具使用是减少LLM幻觉的重大改进方向,例如让LLM调用搜索引擎或计算器API来获取准确信息,OpenAI的gpt-oss模型就是早期专注于工具使用的开放权重模型之一[54][55] - 基准测试数据显示,使用工具能显著提升模型在多项任务上的表现,例如gpt-oss-120b模型在AIME 2024基准上,使用工具后准确率从56.3%提升至75.4%[56] 行业评估困境与数据优势 - 2025年的年度词汇是“极限刷榜”,指过度优化公开基准测试分数,导致分数无法真实反映模型的实际能力和实用性,基准测试作为LLM性能指标的可信度下降[60][61][63] - 随着通用能力提升趋于平稳,高质量的私有数据将成为LLM在特定行业确立优势的关键,但许多公司因数据是其核心差异化资产而拒绝出售给外部LLM提供商[84][85] - LLM开发正变得越来越商品化,预计未来拥有预算的大型机构将更倾向于开发利用其私有数据的内部LLM,而非完全依赖外部通用模型[88][89] AI辅助工作与影响 - LLM被视为赋予专业人士“超能力”的工具,能大幅提高个人效率,例如自动化编写命令行参数等平凡编码任务,或帮助发现代码错误和改进想法[65][66][68] - 然而,完全由LLM生成的代码库无法取代专家精心设计和构建的系统,深入的专业知识对于有效利用LLM指导和改进工作成果至关重要[71] - 在技术写作和研究领域,LLM是强大的辅助工具,可以帮助检查错误、提高清晰度,但无法替代人类作者的深度判断和专业知识,核心工作仍取决于人类[72][76] - 需警惕过度依赖LLM可能导致工作空虚感和职业倦怠,理想的方式是将AI视为加速学习和扩展工作能力的合作伙伴,而非完全外包思考的替代品[77][80][81]
KAN作者刘子鸣:AI还没等到它的「牛顿」
机器之心· 2026-01-02 13:00
AI研究范式与现状 - 行业当前处于AI研究的“第谷时代”,即拥有海量实验数据和强大模型,但缺乏对底层现象的系统性梳理与理论总结[1] - 行业为追求短期性能指标而跳过了“理解”这一关键步骤,正在积累高昂的“认知债务”[3][8] - 即便在“观察”层面,行业目前也极其原始,大多仅关注少数几个基于性能的指标调优[8] 学术发表机制的制约 - 当前学术发表机制偏爱“完美的故事”或“巨大的性能提升”,导致大量碎片化但极具价值的“AI现象学”工作被忽视[5] - 明星数据科学家Jeremy Howard指出,“实验性观察”几乎无法在AI/ML期刊和会议上发表,这阻碍了领域发展[6] - 能够被包装成“故事”的现象极其稀少,许多有趣的现象因无法整理成论文而被随意丢弃[14] AI现象学发展的困境 - 可发表的工作通常只有两类:在性能上有显著提升的工作,或拥有一个足够吸引人的“故事”[12] - 所谓“好故事”通常需要满足普适性或惊奇性,这两类要求都极高,抑制了现象学的发展[13][15] - 行业对“AI物理学”现象学提出了过高的期望,但其本身仍处于非常早期的阶段[9][13] 倡导的新研究范式 - 呼吁建立一种“平易近人的现象学”,不以即时应用为导向,回归用玩具模型进行可控、多视角的假设驱动探索[5][21] - 该方法强调可控性、多视角刻画以及好奇心或假设驱动的探索,定性结果已足够,定量结果更好[21] - 这种“可接近的现象学”对于社区建设具有极高价值,能促进不同研究者之间的观察联系、理论统一与算法改进[17] 个人与社区的行动计划 - 作者宣布将通过博客分享“半成品”的实验笔记,以记录观察、吸引志同道合者,并为课程准备材料[5][19][22] - 计划在清华大学开设一门《Physics of AI》课程,相关博客文章及配套代码可能成为课程材料[5][22] - 建议研究者从自己真正关心的问题开始,定义简单的玩具模型,并致力于彻底理解该模型[20][22]
自回归也能做强视觉模型?NEPA开启「下一嵌入预测」时代,谢赛宁参与
机器之心· 2026-01-02 13:00
研究背景与范式转变 - 视觉预训练的核心传统目标是学习表征,将原始像素映射到固定维度表征以供下游任务微调[8][9] - 自然语言处理领域的成功建立在根本不同的范式上,其预训练目标是作为生成式和预测式系统,通过因果目标对数据分布本身进行建模[13] - 研究表明,生成式预测而非表征学习,可能为扩展预训练提供更直接的途径[15] NEPA核心方法与架构 - 研究团队提出“下一嵌入预测自回归”方法,核心是让模型以过去图块嵌入为条件,学习预测未来的图块嵌入,类似于语言模型的下一词预测[2][16] - 该方法采用带有因果注意力掩码的标准视觉Transformer主干网络,无需单独的解码器,使用单个主干同时进行上下文编码和预测[22] - 训练中对目标嵌入使用停止梯度以创建稳定的预测任务,方法极简,无需像素级解码器、视觉分词器或对比学习中的工程化组件[17][20] 性能表现与实验结果 - 仅在ImageNet-1K上预训练,NEPA的ViT-B和ViT-L模型分别达到83.8%和85.3%的Top-1准确率,优于MoCo v3、BEiT,与MAE和JEPA处于同一水平[29][31] - 在ADE20K语义分割任务上,NEPA的ViT-B和ViT-L模型分别取得48.3%和54.0%的mIoU,证明了纯粹嵌入预测的强大迁移能力[31][32] - 可视化分析显示,模型自动学会了长距离且以对象为中心的注意力模式,预测出的嵌入在语义上与同一物体的其他图块高度相似[37] 研究意义与影响 - 该方法实现了从学习表征到学习模型的范式转变,是视觉预训练领域的一种新探索[2] - NEPA证明了极简的因果预训练可以产生强大的视觉学习器,为跨模态的统一预训练范式提供了无需复杂手工设计的通用视角[16][37] - 该论文在发布时成为arXiv上热度第一的论文,显示了学术界对此方向的关注[4]