Workflow
量子位
icon
搜索文档
爆火Clawdbot被Claude公司强制要求改名
量子位· 2026-01-28 10:48
事件概述 - AI智能体项目Clawdbot因名称与Anthropic的Claude相似,被Anthropic强制要求更名,最终更名为Moltbot [1][7][9] - 更名事件在开发者社区引发争议,有观点认为Anthropic此举错失了免费宣传机会,并引发部分粉丝不满 [14][16][27] 项目背景与命名纠纷 - 项目原名Clawdbot,其命名灵感源于Claude Code的卡通怪物形象,形似龙虾,在社区中曾被简称为“Clawd” [2][3] - 开发者Peter Steinberger表示,曾确认“Clawdbot”在法律上可行,未被注册为商标 [6] - Anthropic仍提出异议,不仅禁止原名,也禁止了去掉字母“d”的变体“Clawbot” [8] - 项目最终更名为Moltbot,新名取自龙虾的蜕壳行为,保留了龙虾元素并规避了商标问题,同时更新了吉祥物“Molty”和logo [10][11] 产品功能与市场热度 - Moltbot是一个全天在线的AI智能体,拥有与人类用户同等级别的系统权限,可寄宿于本地Mac、Windows电脑或树莓派中 [20] - 它可通过各种聊天软件对话,并根据自然语言指令调用终端、编写Python脚本或安装软件来完成任务 [20] - 产品可接入Claude、GPT、Gemini、DeepSeek等多种顶尖模型,具备持久化记忆功能,并能通过API文档或操作逻辑实现自我进化 [20][21] - 该产品在GitHub上获得了极高的关注度,Star量已超过72.2k [18] - 因其爆火,许多用户选择使用Mac mini进行部署,导致Mac mini销量激增,甚至有用户晒出囤积十二台的照片 [23][24] 行业对比与连锁反应 - 此次更名事件并非孤例,OpenAI也曾因商标问题从其官网撤下与Jonny Ive的合作消息,并因名称侵权被Cameo公司起诉,最终为相关功能更名 [28] - 有网友将Anthropic此次决策与竞争对手动态对比,指出Kimi发布了开源的K2.5版本,并称其无论如何都比Claude Opus 4.5更强 [16]
中国团队引领太空算力:首次太空在轨部署通用大模型,发2800颗卫星服务数亿硅基智能体
量子位· 2026-01-28 10:48
文章核心观点 - 全球AI竞争的最新焦点已转向太空算力,中美两国在该领域正展开你追我赶的竞赛[1][3][4] - 中国公司国星宇航在太空算力领域展现出先发优势,其技术方案(如通用大模型在轨部署与更新)比美国公司Starcloud的当前验证更为前沿[3][8][9] - 太空算力因其在降低土地与能源成本、提供低延迟实时服务、推动AI普惠等方面的巨大潜力,成为中美押注的战略方向[13][14][17] - 太空算力面临硬件迭代、软件适配、太空环境(散热、辐射)等系统性技术挑战,中国玩家已率先突破并占据优势[19][21][22] 太空算力竞赛的中美格局 - **美国动态**:英伟达投资的Starcloud公司近期利用已发射至太空的英伟达H100芯片,成功运行开源模型,完成了太空算力技术验证[1][4] - **中国动态**:国星宇航发布了全球首个服务硅基智能体的太空算力网,计划发射2800颗卫星服务数亿硅基智能体[2] - **技术对比**:Starcloud是将地面部署好的模型随算力送上太空运行,而国星宇航已实现“隔空”在轨部署通用大模型,并能根据需求在线更新,技术更为先进[8][9][10] 国星宇航的太空算力计划 - **卫星部署规模**:计划发射2800颗卫星,其中2400颗提供推理算力(总算力达十万P级),400颗用于训练(算力达百万P级)[4] - **时间规划**:全部卫星部署完毕预计需近10年,已于2024年5月成功发射01组太空计算中心,02组和03组已投产,计划今年实现轨道部署,2030年前实现千星规模组网和商用,2035年前完成全部组网[4] - **技术里程碑**:在2024年9月25日至10月5日完成了全球首次卫星在轨运行AI模型技术验证[11],并于2025年11月协助完成千问大模型Qwen3的实时在轨部署与多项在轨推理任务[4][5][6] 发展太空算力的核心动因 - **降低成本与能耗**:节省宝贵的土地资源,并利用太空太阳能持续供能,更为节能;对比数据显示,到2026年全球数据中心总用电量预计达1万亿度,相当于1.2亿人全年用电量[13] - **提供实时低延迟服务**:服务于Robotaxi、无人机等硅基智能体,满足时效性要求极高的任务;例如可为渔业提供实时鱼群动向信息[14][16] - **推动AI普惠**:覆盖全球的太空算力网络可为偏远地区提供AI基础设施,与开源大模型共同推动AI技术普及[17] 太空算力面临的技术挑战 - **硬件迭代矛盾**:AI芯片性能迭代快(摩尔定律),与太空基建建设周期长存在矛盾,需建立硬件在轨更替机制或通过软件延长硬件生命周期[19][20] - **软件与操作系统适配**:需开发适配太空环境、同时又能兼容地面主流开发架构的操作系统[21] - **太空环境特殊性**:面临散热挑战(太空无空气,热量只能通过辐射传递)和高能粒子轰击导致硬件损坏与计算精度干扰等问题,需创新热管理与安全冗余技术[21][22]
搜狗输入法,居然还在更新??
量子位· 2026-01-28 08:02
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 先问一嘴,大家都在用啥输入法…… 说实话,在腾讯自家的微信输入法早已上线、各类AI新产品又轮番轰炸的当下,看到"搜狗输入法20.0 AI大版本升级"这几个字的时候,反正 我很困惑—— 第一个问题是 收购来的搜狗输入法,居然还在大手笔更新?? 收购来的国民输入法不仅没被冷落,还能持续拿到资源迭代,甚至AI用户规模冲到了1亿。 第二个困惑是 输入法这东西,还能怎么升级? 能打字、能联想、偶尔弹点表情包……这么多年下来,基本上也定型了吧。 带着这种半信半疑,我把最新版的搜狗输入法装进手机试了一下,发现还真跟我想得不一样。 轻声识别,拯救"废话" 中译英译日译韩,居然如此丝滑(手动大拇指)。 好好好,旅游小帮手这不就来了,立马推给了小伙伴~ 为啥推荐,因为方便! 先说一下上面的打字秒翻译是咋做到的,点击 汪仔-文本翻译-打字-选择想要转译的语言-替换 即可。 如果说前面的语音和翻译是显性升级,那AI打字这部分,可能你得长时间使用才能发现, 不同场景下,候选词的逻辑明显不一样 。 以"bx"这个词组为例; 除了AI文本翻译这个功能,另一个比较新颖的升级,是搜狗这次主 ...
录屏扒代码、截图改网页!Kimi K2.5把「视觉x代码」玩明白了
量子位· 2026-01-28 08:02
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 说真的,AI圈现在恨不得睁眼闭眼就变天,产品一个接一个,难怪网友都开始"求求你们别更新了"…… △ 图源:抖音hyarriver 这不,今天一睁眼就又看到个新东西。 能直接从录屏里扒特效代码并复现的模型你见过没??反正我是开眼了。 随手从相册里挖出下面这个视频上传,输入"实现这个交互特效"几个字: 模型一通操作之后,我得到了如下成品: 只能说,春节档的电影还没开始预热,中国的开源力量就已经势如破竹了。 这是Moonshot AI新推出的最强Agentic模型 Kimi K2.5 ,发布后就在某推上热度起飞。 掌门人 杨植麟 还 亲自上阵,为这个新模型录制了中英两版介绍视频。 从视频内容看,Kimi K2.5的升级点不少: 本来只是看完介绍想浅试一下,结果没想到还真有点意思。 那咱就接着细说、接着测! 实现视觉与文本、思考与即时、对话与Agent功能的一体化整合,主打一个 All in one ; 具备 设计审美 ,可生成带高级动效的网页; 支持 visual edit可视化编辑 ,截图圈选即可修改界面,上传动效录屏可自动拆解逻辑并生成专业代码; 推出编程工 ...
阶跃星辰不再低调:巨额融资,印奇加入,“1+3”核心决策层浮出水面
量子位· 2026-01-27 16:32
公司近期重大动态 - 阶跃星辰完成超过50亿元人民币的B+轮融资,刷新了过去12个月大模型赛道的单笔融资纪录,其金额超过智谱和MiniMax的IPO募资金额[2] - 印奇正式加入公司核心决策层并担任董事长,标志着公司核心决策层形成了“1+3”的班底模式[3][8][13] 核心决策层“1+3”团队构成与能力 - “1”指新任董事长印奇,他是清华姚班首批校友、旷视科技创始人、现千里科技董事长,是横跨AI 1.0(计算机视觉)与AI 2.0(大模型)时代并完成过产业与硬件闭环的样本人物[5][6] - “3”分别为CEO姜大昕、首席科学家张祥雨、CTO朱亦博,四人团队对应大模型落地所需的战略、算法、系统、工程四类核心能力轴[13][14][15] - 董事长印奇在AI 1.0时代带领旷视科技将计算机视觉技术推向真实产业场景,后在2024年入主千里科技主导“AI+车”战略,其产业落地与终端视角与公司“AI+终端”战略高度契合[20][21][22][23][25] - CEO姜大昕是自然语言处理全球知名专家,2025年IEEE Fellow,谷歌学术被引量超过2.4万,曾任微软全球副总裁,负责必应搜索核心模块,拥有超大规模在线系统经验,其背景适合带领团队迎战大模型应用落地[28][29][30][31][33] - 首席科学家张祥雨是ResNet作者之一,该论文是计算机科学领域引用量最高的巅峰之作,其研究方向覆盖多模态大模型、神经网络架构设计、模型裁剪与加速,曾开发影响手机解锁技术的ShuffleNet,目前正带领团队攻坚原生多模态,为公司的技术路线提供可靠的决策锚点[35][36][39][40][43][48] - CTO朱亦博曾奠基RoCE高速网络协议,后于字节跳动从零建设国内最大规模AI Infra之一,拥有单集群万卡以上系统经验,加入公司后使AI Infra团队与算法团队处于同等重要的“双引擎”位置,为公司带来训练效率、集群稳定性及模型迭代空间的差异化竞争优势[50][51][54][56][57][58] 公司战略方向:AI+终端 - 公司自去年起反复强调并坚持“AI+终端”战略,该战略与印奇在旷视和千里的“AI+终端落地”经验不谋而合[11][23] - 公司核心团队背景交汇于微软搜索系与旷视计算机视觉系,分别带来了数据工程与软硬结合的实战经验,构成了“AI+终端”方向最核心的两个能力轴[63][67][71][78] - 从市场角度看,软硬件结合的AI+终端模式存在蓝海机会,终端设备具有高频入口和本地数据优势,据IDC报告,到2026年中国市场AI终端出货量将超过3亿台,2027年渗透率将爆发式突破93%[85][86] - 印奇加入后规划在2026年实现三件事:在汽车端让100万辆车搭载千里智驾系统;在基础模型上达到全球第一梯队水平;在未来12~15个月内孵化出创新硬件面世[90][91] 团队背景与公司能力构建 - 公司的算法团队和商业化落地能力很大程度上来自旷视体系,该体系成员拥有将算法与硬件结合、在真实物理世界约束下实现落地的软硬结合实战经验[65][66][67] - 公司的数据团队更多出自微软搜索团队,搜索系统对数据工程和实时反馈闭环的苛刻要求,使其沉淀的经验能有效应对大模型长期运行后的数据漂移、评估失真等关键问题[71][72][74][75] - 微软系与旷视系两条线的交汇,使公司成员共同秉持“模型必须接受真实系统约束”的前提,构成了公司相信系统、相信长期演进路径的工程逻辑基础[76][77][81]
DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型,性能媲美Gemini-3 Pro
量子位· 2026-01-27 16:32
henry 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,DeepSeek开源了全新的OCR模型—— DeepSeek-OCR 2 ,主打将PDF文档精准转换Markdown。 相较于去年10月20日发布的初代模型,DeepSeek-OCR 2的核心突破在于打破了传统模型死板的"光栅扫描"逻辑,实现了 根据图像语义动态 重排视觉标记(Visual Tokens) 。 为此,DeepSeek-OCR 2弃用了前作中的CLIP组件,转而使用轻量化的语言模型(Qwen2-0.5B)构建 DeepEncoder V2 ,在视觉编码阶 段就引入了"因果推理"能力。 这一调整模拟了人类阅读文档时的因果视觉流,使LLM在进行内容解读之前,智能地重排视觉标记。 性能上,DeepSeek-OCR 2在仅采用轻量模型的前提下,达到了媲美Gemini-3 Pro的效果。 在OmniDocBench v1.5基准上,DeepSeek-OCR 2提升了 3.73% ,并在视觉阅读逻辑方面取得了显著进展。 | Model | | | | V-token™ax Overall ↑ Formula OM ↑ TableTEDs ↑ ...
机器人看不清,蚂蚁给治好了
量子位· 2026-01-27 14:57
文章核心观点 蚂蚁集团的具身智能公司蚂蚁灵波开源了全球领先的深度视觉模型LingBot-Depth,该模型通过创新的算法设计,有效解决了机器人等设备在感知透明和反光物体时深度信息缺失或错误的长期难题,且无需更换硬件,有望显著加速具身智能在家庭、商业等复杂真实场景的落地进程 [9][14][58][60] 技术原理与创新 - **问题根源分析**:机器人“看不清”透明和反光物体的核心问题在于其“眼睛”——深度相机的工作原理依赖物体表面对光线的稳定反射,而透明材质会让光线穿透,高反光材质则导致光线漫反射,使得传感器无法接收有效回波信号,产生大量缺失或错误的深度值 [5][6] - **问题本质区分**:从算法层面看,透明物体的问题是**信息缺失**(如玻璃缺乏稳定纹理),而反光物体的问题是**信息过载**(表面映射复杂环境倒影),这是两类截然不同甚至相反的问题,需区别处理 [16][17][18][21][24] - **核心创新范式**:提出名为**掩码深度建模**的全新范式,其反直觉的解法在于:将传感器在透明/反光区域天然失效产生的缺失深度值,视为一种**天然的掩码**,并以此训练模型,要求其仅凭RGB图像和剩余有效深度信息,“脑补”出被掩码遮住的深度部分 [25][26][28] - **关键技术架构**: - 采用**联合嵌入的ViT架构**,使用视觉Transformer作为主干网络,分别对RGB图像和深度图进行分块嵌入,并通过模态编码和自注意力机制学习颜色与深度之间的精细对应关系,建立跨模态联合表征 [30] - 设计**智能掩码策略**,优先使用传感器天然缺失区域作为掩码,对部分有效/无效的深度块以高概率(如75%)掩码,天然掩码不足时才补充随机掩码,确保模型解决最真实、最困难的问题 [31][32][33] - 使用**ConvStack卷积金字塔解码器**替代传统Transformer解码器,以更好地保留空间细节和边界锐度,输出更清晰、连贯的深度图 [34][35] 数据与训练 - **数据规模与构成**:为训练模型构建了总计约**300万**的高质量RGB-D样本用于预训练,其中**200万**来自真实世界,**100万**来自高保真仿真 [40][41] - **真实数据采集**:设计模块化3D打印采集装置,适配多种商用RGB-D相机,系统性地收集了住宅、办公室、商场、餐厅、医院等数十种场景下包含透明、反光、低纹理等挑战性物体的真实数据 [43] - **仿真数据生成**:在Blender中同时渲染RGB图像和带散斑的红外立体图像对,再通过半全局匹配算法生成有缺陷的仿真深度图,以高度还原真实传感器的失效模式 [45] - **数据开源计划**:蚂蚁灵波团队计划开源这套包含200万真实和100万仿真数据的庞大数据集,旨在降低整个行业在空间感知领域的研究门槛 [46][61] 性能表现与验证 - **基准测试表现**:在多个权威的深度补全基准测试上全面超越当前最先进的方法,在最严苛的极端设定下,其RMSE指标比此前最好的方法降低了**超过40%** [47][48] - **泛化与一致性**:模型在训练时仅使用静态图像,但在视频序列上展现出惊人的时空一致性,输出的深度流能填补大片空洞且保持平滑稳定,无闪烁跳变 [49][50] - **真实机器人验证**:将模型部署于由节卡机械臂、灵巧手和奥比中光Gemini 335相机组成的真实机器人平台,在20次抓取尝试中,使用LingBot-Depth的成功率远高于使用原始深度数据 [52][53][54] - **硬件适配效果**:在与奥比中光等硬件适配过程中,验证了LingBot-Depth能够在现有消费级深度相机上实现接近专业级传感器的感知效果 [59] 行业影响与意义 - **软硬协同路径**:提供了一条不依赖更换昂贵硬件的升级路径,通过算法即可大幅提升现有深度相机的感知鲁棒性与完整性,可作为即插即用模块集成到现有机器人、自动驾驶或AR/VR设备中 [56][57][58] - **加速场景落地**:该技术将大大加速具身智能在**家庭服务、仓储物流、商业零售**等复杂真实场景的落地进程 [60] - **推动行业开放**:蚂蚁灵波已开源LingBot-Depth的代码和模型权重,并计划开源数据集,此举将极大降低学术界与工业界在空间感知领域的研发门槛,有望催生更多创新应用,推动行业发展 [61][62]
奥特曼承认OpenAI路线走偏了,以及“写代码将变得不再重要”
量子位· 2026-01-27 13:37
AI对软件工程与就业的影响 - 未来从事软件工程师工作的人数可能会大幅增加,全球GDP中会有更大一部分通过这种方式被创造出来 [4][7] - AI将显著减少工程师花在敲代码和调试代码上的时间,更多精力将用于让系统完成预期功能 [4][6] - 未来将大量出现为个人或极小群体量身定制的软件,每个人都会不断为自己定制工具 [5][6] AI模型的发展趋势与OpenAI产品路线 - OpenAI承认在ChatGPT-5系列模型的开发中“搞砸”了,因其过度专注于提升智力、推理和编程能力,导致其他方面(如写作能力)表现不稳定 [18][19] - 从长远看,主流将是真正高质量的通用型模型,OpenAI希望下一代模型在所有维度上都变得非常优秀,并相信可以在单一模型中实现 [21][22][23] - 模型学习新技能的速度在未来几年会比人类还要快,并且有望在面对完全陌生的新工具或技术时,仅需一次解释或自行探索后就能稳定可靠地使用 [11][12] AI对教育的影响与态度 - 在幼儿园阶段,最重要的学习方式是跑动、玩耍以及通过真实物品和真人进行交流,因此不仅AI,连电脑本身都不应被引入 [14][15] - 在真正搞清楚技术对青少年的长期影响之前,至少在幼儿园阶段没有必要引入AI [16] AI的成本、速度与商业化瓶颈 - 模型发展进入新阶段,市场关注点不再只是降低成本,对输出速度的要求变得同样重要,用户甚至愿意为更快的速度支付更高价格 [24][26][27] - OpenAI在压低模型成本方面一直做得非常好,成本曲线已呈现明显下行趋势,并有信心将成本降至足以支持大规模运行Agent的经济可行性 [24][28] - AI降低了软件开发成本,但创业最难的部分在于让大众关注、使用并连接产品,根本问题在于人类注意力的极度稀缺 [43][45][46] AI的经济效应与社会影响 - AI很可能带来非常强的通缩效应,因为它能让个人以极低成本完成以往需要大公司或大团队才能完成的事情 [34][36] - AI有潜力拉平长期存在的经济差距(如性别工资差距),但也可能将权力和财富进一步集中到少数人或公司手中,最终效果取决于部署、监管和政策设计 [37][38] AI安全与风险 - 对2026年AI可能出问题感到紧张,最担心的领域是生物安全,当前依赖限制访问和分类器的“封堵式”安全策略难以持续 [39][42] - AI安全必须从阻止一切发生转向提高整体抗风险能力,即建设“韧性式”安全,AI本身既是问题也是解决方案的一部分 [40] AI在创意与科学研究中的应用 - 世界上已存在大量人类生成的垃圾内容,真正的困难在于想出好的新点子,应构建专门帮助人们产生好想法的工具 [29][30][31] - 内部使用的“特殊版本”GPT-5.2模型带来的科学进展已不再是可有可无的水平 [33]
3D版Nano Banana来了!AI修模成为现实,3D生成进入可编辑时代
量子位· 2026-01-27 11:53
行业趋势与市场动态 - 2026年初,AI领域焦点从大模型、生图、生视频转向更具挑战性的3D生成领域[1] - 2025年1月,Google收购3D生成公司Common Sense Machines并与Epic Games合作,引发市场对3D版“Nano Banana”的猜测[1] - 3D生成行业产品化起步较晚、生态分散、工具链长,多数团队仍停留在“随机抽卡”阶段[19] 公司产品发布与核心功能 - 全球领先的3D生成平台Hyper3D发布Rodin Gen-2 Edit,推出基于自然语言的3D模型局部编辑功能[3] - 该产品是业内首个将“3D生成”与“3D编辑”整合为完整工作流的商用产品,标志着3D生成进入可编辑时代[3] - 产品支持两种核心操作路径:在平台内文/图生3D后直接对结果进行局部修改;或导入任意现有第三方模型进行编辑[4][5] - 操作逻辑简单直接:框选需要修改的区域并输入文字指令即可完成局部调整,修改区域与原模型衔接自然[4][9] - 编辑功能已成为平台级基础设施,支持任何第三方3D资产导入编辑,而非单点功能[9][11] 技术路径与产品意义 - 产品意义在于首次将3D从“结果展示”推进到“可迭代工作流”,补上了AI工作流的关键一环[14] - 生成式AI的进化路径清晰:先生成 → 再可控 → 最终可编辑[14] - 该产品通过“选中局部+文本指令”的方式,将修改需求转化为明确路径,避免了反复推倒重来的“抽卡”模式[20] - 产品编辑功能与强大的“可控性”体系相辅相成,为专业用户提供了一套完整的工作流[21] 技术积累与核心能力 - 公司选择更艰难的原生3D路线,而非行业早期普遍的“2D升维3D”路径,以解决产业应用的致命问题[24] - 2024年,公司发布原生3D大模型框架CLAY,并基于此推出全球首个原生3D大模型产品Hyper3D.AI Rodin[24] - 公司从Rodin第一个版本就引入3D ControlNet,并在每个版本更新相关能力[24] - 随着Rodin Gen-2上线,公司推出了业内唯一的递归分件技术——BANG[24] - 公司核心技术体系包括:3D ControlNet控制、BANG分件、Smart Low-poly智能低模优化、Text-to-Edit基于自然语言的定向修改[25] - 公司获得SIGGRAPH 2025最佳论文的CAST技术,指向从单图生成包含物体、关系和物理约束的完整3D场景的未来方向[26] 商业化与生态建设 - 产品已打通Blender、Maya、Unity等主流工作流[23] - 与国内头部大型UGC游戏的合作验证了其在移动端大规模用户场景下的稳定性[23] - 与拓竹的合作使生成模型可直接进入3D打印流程[23] - 仅2025年,公司就连续完成由顶级美元VC和战略产业方投资的两轮融资[27] - 新功能已在Hyper3D平台上线,支持用户免费体验[28]
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
量子位· 2026-01-27 10:33
研究核心观点 - 提出一种名为“测试时训练以发现”的全新方法,旨在解决开放科学问题,该方法在测试阶段针对单个具体问题,引入强化学习对模型权重进行实时更新,使模型能从失败尝试中获取经验并实现定向进化[1][5][6] - 该方法基于开源模型gpt-oss-120b,在数学、内核工程、算法和生物学等多个领域达到或超越了当前最佳水平,性能优于人类专家与前沿闭源模型[3][8] - 核心思路是“在测试时进行强化学习”,其设计目标是针对特定科学发现任务,找到一个超越已有知识的最佳方案,而非在已知数据分布中实现泛化[9][12] 方法原理与创新 - **学习目标创新**:采用熵目标函数,其核心目标是产生一个极优解,通过调整权重倾向于奖励最高的单个动作,而非优化整条轨迹的平均奖励[9][10][11] - **搜索程序创新**:引入受PUCT启发的重用机制,在缓冲区中维护历史尝试,优先扩展最具潜力的状态,同时兼顾探索,以解决有效时界过短的问题[12][20][22] - **解决数据困境**:模型通过自身生成动作并接收反馈,将大量尝试存入缓冲区,构成针对特定问题的“私有数据集”,从而解决了分布外问题无数据可练的困境[13][14] 技术实现细节 - **算法循环**:在每一步训练中循环执行“挑选-生成-评分-更新”操作,从缓冲区选出最具潜力的起点,生成新尝试并评估,随后立即根据结果更新模型权重[17][18][27] - **状态选择机制**:采用受PUCT启发的评分函数,其中Q值采用子节点的最大奖励,而非平均值,关注“从该状态出发能走到多好”,先验项则编码了高奖励状态可能孕育高奖励后继状态的直觉[24][25][26] - **训练目标公式**:引入熵目标函数与KL惩罚项,显式引导模型偏好奖励最大的动作,同时在强化高优势动作时维持必要的探索能力[22][23] 实验性能表现 - **数学领域**:在Erdős最小重叠问题上,将下界从人类最佳的0.380927和先前最佳AI的0.380924,提升至0.380876[7][8] - **内核工程**:在GPU内核编写任务中,速度比当前最佳人类实现快约2倍[7][27] - **算法领域**:在历届AtCoder比赛题目上取得最高分567,062分,超越了人类最佳成绩566,997分和先前最佳AI的558,026分[7][8] - **生物领域**:在单细胞RNA-seq去噪任务上达到0.71的评分,优于人类专家的0.64[7][8] 应用与成本 - 基于开源模型gpt-oss-120b,通过Tinker API运行,解决单个问题的测试成本约为数百美元[27] - 该方法表明,在测试阶段引入针对性学习,能使中等规模开源模型在解决复杂的分布外科学生问题时展现出卓越能力[29] - 目前主要适用于连续可验证奖励场景,后续工作需拓展至稀疏奖励、二元奖励及不可验证领域的问题[29] 研究团队背景 - 论文一作为斯坦福大学计算机科学系博士生Mert Yuksekgonul,共同一作为斯坦福人工智能实验室全职研究员Daniel Koceja[30][31][33] - 通讯作者Yu Sun为斯坦福大学博士后兼英伟达研究员,其研究方向为持续学习,自2019年起持续关注测试时训练[34][37]