机器之心
搜索文档
TRAE SOLO移动端上线,手机也能干活了,随时随地Vibe Working
机器之心· 2026-05-06 16:39
TRAE SOLO移动端发布与产品核心能力 - TRAE SOLO近日上线移动端,实现了手机、桌面、网页三端全量开放与数据打通,支持iOS、Android、Mac、Windows系统 [4][6] - 移动端并非桌面端的缩水版,它与桌面端共享同一个智能体、同一套文件系统和同一段对话上下文,确保用户在不同设备间切换时工作心流不中断 [7] - 该产品旨在解决“AI时代的数字焦虑”,即用户因担心远程AI任务执行出现问题而不得不随身携带电脑的痛点,通过三端互联将工作流从固定工位中解放出来 [3][4][9] 移动端核心应用场景与功能 - 针对非开发者,用户可利用手机随时将零散想法(如Campaign点子、需求改动)通过语音或输入告知TRAE SOLO,由其直接生成PRD草稿、运营思路或待办任务,并同步至PC端工作流 [7] - 针对开发者,产品可将移动场景中产生的灵感(如Bug解法、新Feature拆解思路)立即记录并整理成修改计划,无缝接入PC端的项目上下文中继续执行,实现开发工作“永不掉线” [7] - 移动端具备完整的MTC(可能指多任务理解与生成)和代码(Code)功能,用户可在手机上完成从产品规划、提示词设计到代码落地的全流程,例如成功复现一个浏览器插件项目 [12][13][15][18] - 新增“实时语音交互讨论”功能,用户可直接用手机与AI就产品想法、策略报告或代码问题进行深度讨论,AI能生成讨论纪要、沉淀思路并下发任务,使手机成为任务发起的新起点 [19][20] - 实现了“飞书CLI接入”,用户可提交飞书文档链接让智能体理解内容,并基于上下文生成方案、报告或任务拆解,例如根据竞品分析文档产出新品策略报告,生成的文档会以卡片形式沉淀 [26] - 新增“定时任务”功能,用户可预设任务让智能体按固定时间或频率自动执行Prompt并产出结果,例如每日自动整理竞品动态并生成报告,使AI成为长期在线的自动化助手 [33] 产品性能与用户体验 - TRAE SOLO在移动端的性能与桌面端保持一致,能力“不打折”,包括更新待办列表、执行文件操作、代码编写与执行等,产物管理清晰 [28][29] - 在实测的5分钟语音讨论中,TRAE SOLO反应迅速,能高效给出建议,并在每次发言后尝试引导和启发用户思维,甚至主导了讨论节奏 [22][23] - 语音讨论结束后,智能体会自动总结全过程和结论,类似于会议软件的会后纪要功能 [25] - 目前语音讨论功能尚不支持联网搜索和实时任务执行,未来若能实现将更具竞争力 [26] 行业意义与战略定位 - TRAE SOLO移动端的推出,标志着智能体从桌面软件时代迈向移动互联新阶段,其核心价值在于让工作流摆脱固定工位,使智能体能跟随人在不同设备和场景间自然流转并接力完成任务 [44][46] - 此举降低了智能体的使用门槛,使其从“开发者专属工具”转变为服务于产品经理、运营、管理者、测试、设计等多类角色的通用工具,通过手机操作、语音交互及接入业务流程拓宽了应用边界 [47] - 行业竞争主线正发生变化:过去两年AI编码领域的竞争集中在桌面环境(如Cursor与VS Code生态融合,GitHub Copilot嵌入开发环境),核心是提升生产效率;而TRAE SOLO Mobile将竞争边界推向“人的工作流本身”,强调智能体应无缝融入并跟随人的全场景工作流 [41][43][48] - 产品理念类似于“闪念胶囊”的完全体进化:不仅捕捉和保存灵感,更能由智能体接手,将零散念头补全、整理、拆解并直接推入执行工作流,实现了从“想到”到“做到”的极短路径压缩 [37][39][40] - 这一发展被类比为移动互联网的革命:如同移动互联网让服务摆脱书桌跟随人走,智能体的移动互联让工作流摆脱工位,标志着智能体发展的一个新阶段 [45][46]
GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」
机器之心· 2026-05-06 16:39
大模型时代的「炼金术师」们,或许都曾面临一个共同的困扰:当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型 (SLMs)时,效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著,但一旦应用到 1.7B 甚至更小参数的模型上,性能提升 就微乎其微。 针对小模型在强化学习中的推理困境,香港中文大学(深圳)T-Lab 唐晓莹教授携课题组博士毕业生郭永新、邓文博提出了全新算法 G²RPO-A(Guided Group Relative Policy Optimization with Adaptive Guidance)。已被 ACL 2026 主会议(Main Conference)接收。 该方法通过在 roll-out 过程中注入高质量思维轨迹,并根据训练状态动态调整指导强度,有效缓解小模型面临的奖励稀疏问题。在 Llama、Qwen、 DeepSeek 等多个主流模型家族上的实验表明,G²RPO-A 在数学推理和代码生成任务上显著优于 vanilla GRPO,其中 Qwen3-1.7B 在 MATH500 上从 50.96 提升到 6 ...
Luma Uni-1.1 API开放,图像模型榜单第三,文字渲染直逼GPT image 2
机器之心· 2026-05-06 14:04
行业动态与竞争格局 - 2024年以来,图像生成模型迭代速度加快,Google的Nano Banana升级至2.0,OpenAI推出了GPT-Image 2 [1] - 在第三方盲测平台LMArena的图像生成实验室榜单中,Luma AI的Uni-1.1与Uni-1.1-Max排名第三,仅次于OpenAI和Google,领先于Microsoft AI、xAI、Reve、阿里、Black Forest Labs、腾讯与字节等公司 [2][4] - 该模型在榜单上的模型得分为1193分,与排名第一的OpenAI模型(1398分)和排名第二的Google模型(1268分)存在差距,但已进入头部阵营 [4] 产品核心能力与技术特点 - 模型采用统一架构,在同一个decoder-only自回归Transformer模型内同时处理图像理解与生成任务,将文本token与图像token置于同一交错序列进行建模 [29][31] - 技术路线旨在解决传统多模态系统中理解与生成分立导致的工程问题,如跨模态信息多次传递对齐成本高、多轮编辑状态保持困难等 [29][30] - 该架构使得模型能在像素生成前于结构层面解决构图、空间关系、品牌一致性等约束,实现“先理解意图,再生成像素” [31] - 模型在生成训练中提升了细粒度理解能力,体现了“生成式心智模型”的特点,这是公司选择统一架构的重要动机之一 [33] 产品性能与用例展示 - 模型专注于在结构化、长版面、多对象、多轮迭代等复杂生产场景下稳定输出,而不仅仅是比拼图像美观度 [8] - 能够单次生成包含报头、导航、新闻、广告、页脚等十几类版式元素且英文文本真实可读的完整新闻网站页面 [10][12] - 能够生成风格统一、包含多语义层(如分类水印、坐标尺、结构标注、表单字段)的工程绘图风格图像 [14][17] - 能够在同一幅插画中按比例准确呈现二十余型运载火箭,并同时保持型号、国家、高度、首飞年份等多标签信息正确 [20][21] - 能够处理中文版面挑战,生成包含可读中文标题、经营信息及十二张缩略图阵列的海报,并保持缩略图中同一主体角色的身份一致性 [27] - 支持生产级功能:单次调用最多支持9张参考图作为模型层级硬约束进行融合,以保持品牌形象、产品等视觉身份 [38];支持多轮按句编辑,修改时默认保留其他元素,身份与空间关系跨轮稳定 [38] 商业化与市场应用 - 已开放API,提供按量计费的Build计划和带预留吞吐的Scale计划 [1][35] - Build计划中,文生图单图(2048px)价格区间为$0.0404至$0.1000,价格与延迟均不到同类模型的一半 [3][36] - Scale计划主要面向品牌资产基础设施、多市场内容生成等流水线级生产管线,最低8单元起订 [37] - 已获得Adidas、Mazda、Publicis Groupe、Serviceplan等品牌与广告集团接入,并集成至多个创作者平台 [5] - 一个实际应用案例显示,某品牌预算约1500万美元、周期一年的多国广告本地化活动,通过基于Uni-1.1的工作流,在约40小时内以低于2万美元的成本完成并通过审核 [5] - 对于跨国品牌,该API的核心吸引力在于能将广告本地化、电商按需生图、IP角色一致性维护等工作流程化、自动化,大幅降低成本与时间 [40] 公司团队与发展战略 - 核心研究团队规模不到15人,由两位华人学者领衔:首席科学家宋佳铭(扩散模型采样加速奠基人)和Uni系列模型研究负责人沈博魁(计算机视觉顶会最佳论文得主) [2][44][47] - 团队选择了与大厂不同的技术路径,致力于用统一模型同时解决理解与生成问题 [45] - 按路线图,统一框架将从静态图像扩展至视频、语音与交互式世界模拟,最终目标是将“看、说、推理、想象”整合到同一条连续流中 [45] - 该模型作为“统一智能”路线的第一代产品,以较小团队和精简模型在取得第三方盲测高排名的同时,显著降低了市场价格 [42][45]
公里级场景也能稳住了,国产团队把长视频3D重建又往前推了一步
机器之心· 2026-05-06 14:04
文章核心观点 - 浙江大学、地平线机器人和之江实验室联合提出的 Scal3R 方法,通过将长序列训练、推理及跨块信息更新整合进同一流程,解决了长视频、大规模场景三维重建中因误差累积导致的轨迹漂移和精度下降问题[2][3][4] - Scal3R 的核心创新在于将测试时训练技术转化为一种系统性的方法,确保模型在训练阶段就学习处理长序列,从而在推理时保持局部几何精度与全局一致性,实现了对超万帧、几千米规模场景的稳定重建[4][13][15] 超大规模场景重建的现有问题与挑战 - 当前基于前馈式三维基础模型的方法在处理短序列或小场景时精度不错,但面对大场景、长序列时,计算成本高昂且长程漂移问题被放大[8][9] - 现有应对长序列的两条主要技术路线存在局限:压缩Token会损失细节和长程依赖;基于分块的方法若局部预测不准,块间误差会被放大[10][11][12] - 问题的核心在于训练与测试的序列形态不匹配,模型训练时使用短序列,测试时却需处理数百至上千帧,这种错位导致模型难以维持长程稳定性[10][13] Scal3R 的技术方案与核心模块 - Scal3R 在 VGGT 的视觉几何能力基础上,借助测试时训练技术,构建了一个将长序列训练、推理和跨块信息更新统一起来的流程[15] - **全局上下文记忆模块**:由一组轻量、可更新的自适应存储单元组成,用于跨块累积和保留上下文信息,并确保训练与测试采用相同的逐块更新方式[19] - **全局上下文同步机制**:利用分布式数据并行的 all-reduce 机制,在不同GPU处理的块之间同步自适应存储单元的梯度更新,确保整个长序列处理机制的一致性[20] - 该方法将长序列切分为重叠块进行并行计算,将计算复杂度从随长度平方增长摊平,并通过融合扩展到整个序列[24] Scal3R 的性能优势与评估结果 - **相机位姿估计精度显著提升**:在KITTI数据集上,Scal3R 的绝对轨迹误差为14.55米,相对平移误差为4.61米,相对旋转误差为0.97度,相比基线方法 VGGT-Long 的25.94米、9.67米、1.71度有大幅改进[28][29] - **三维重建质量全面领先**:在ETH3D、Oxford Spires、VKITTI2三个数据集上,Scal3R 在衡量点云质量的倒角距离和F1分数指标上均取得最优结果,例如在ETH3D上达到倒角距离0.11和F1分数0.91,优于VGGT-Long的0.24和0.84[31] - **资源与扩展性平衡**:方法可在单张RTX 4090 GPU上完成推理,运行时间随序列长度增长基本呈线性,从150帧到990帧,相对位姿误差稳定在0.07到0.08米之间,展示了良好的可扩展性和稳定性[33] 技术突破的深层逻辑与行业意义 - Scal3R 的关键在于将局部几何预测、可更新上下文、长序列训练和测试时同步这四要素整合进同一框架,而非仅仅优化分块拼接策略[23][24] - 该方法重新定位了大规模三维重建问题的重点,强调模型必须在训练阶段就学习处理长序列,才能保证在测试时的稳定表现,这为长视频场景理解和三维基础模型向公里级场景扩展提供了新思路[13][34]
领先于Transformer!新架构首个1200万上下文模型SubQ,成本仅Opus的5%
机器之心· 2026-05-06 14:04
文章核心观点 - 公司Subquadratic提出了一种名为SubQ的新模型,其核心是亚二次稀疏注意力机制,旨在从根本上解决大语言模型处理长上下文时计算成本过高、效率低下的问题,使模型能够真正理解并利用长达百万token的上下文信息,如代码库、合同和研究语料 [2][5][8] - 传统的稠密注意力机制在处理长上下文时存在“浪费性的二次复杂度”,计算量随序列长度呈二次方增长,导致在百万token级别成本过高,而SSA通过基于内容的选择机制,只计算真正重要的token交互,将计算复杂度降低至线性,实现了显著的性能提升和成本降低 [3][10][22] - SubQ模型在多项基准测试中展现出与前沿模型相当的检索和推理能力,同时在长上下文场景下实现了巨大的速度优势,例如在100万token场景下预填充速度比稠密注意力快52.2倍,成本不到Opus的5%,为长上下文AI应用提供了经济可行的新路径 [5][8][32] 长上下文问题的挑战与现有方案的局限 - 企业AI面临的真正难题本质上是长上下文问题,涉及代码库、合同、知识库等,相关信息分散且间接引用,需要模型同时理解多处信息才能有效推理 [2][15] - 现有解决方案如将长文档切块、检索增强生成和基于Agent的工作流,虽然有效,但会引入新的失效模式,例如丢失位置信息和引用关系,错误在步骤间累积,并且过度依赖人工设计的策略,削弱了泛化能力 [16][18][19] - 行业通过在模型外构建“脚手架”来绕开长上下文限制,但并未改变底层注意力机制二次方扩展的规律,成本依然是核心瓶颈 [20][23] SSA(亚二次稀疏注意力)的技术原理与优势 - SSA的核心思想是“基于内容的选择”,它改变了注意力分配方式,不再假设任意一对token都重要,而是通过路由机制只在与当前query真正相关的位置上精确计算注意力,从而大幅减少计算量 [27][28][29] - SSA具备三个关键特性:1) 计算与内存的线性扩展;2) 基于内容的路由能力;3) 从任意位置进行稀疏检索的能力,这使其从根本上区别于仅优化执行效率的方案 [30] - 随着上下文长度增加,SSA相比稠密注意力的速度优势呈指数级放大,在B200 GPU上,128K token时加速7.2倍,256K时加速13.2倍,512K时加速23.0倍,100万token时加速达到52.2倍 [30][32] SubQ模型的训练与评估 - 为确保模型能可靠利用长上下文,研究团队采用了三阶段训练流程:预训练建立基础能力、监督微调引导至企业工作负载模式、强化学习专门针对长上下文检索和跨引用推理等难以诱导的行为进行优化 [35][37][38] - 评估强调“功能上下文”而非“名义上下文”,即模型实际利用上下文进行检索、关联和推理的能力,而非宣称的窗口大小 [40] - 在计算速度方面,SSA在100万token规模下,注意力FLOPs相比标准注意力降低了62.5倍,预填充加速达52.2倍 [41][42] - 在检索能力基准测试中,SubQ在RULER(128K)上达到95.0%,与Opus 4.6的94.8%相当;在MRCR v2上得分为65.9%,处于Claude Opus 4.6的得分区间内,并领先于GPT-5.4和Gemini 3.1 Pro;在SWE-Bench Verified上达到81.8%,与同级别模型表现相近 [45][48][50]
国产双开源:让Mac成为你的私人AI工作站
机器之心· 2026-05-06 12:10
行业技术趋势:Apple Silicon + MLX成为本地AI推理主流 - 2026年3月底,Ollama宣布其Mac版底层推理引擎将从llama.cpp切换为苹果的MLX框架,这被视为向开发者生态发出的明确信号,表明Apple Silicon + MLX正在成为本地AI推理的主流路线[1][6] - 性能提升显著,在搭载M5芯片的Mac上,切换到MLX后,prefill速度提升超过57%,生成速度接近翻倍,部分场景下生成第一个token的等待时间(TTFT)缩短至原先的四分之一[4] - 性能提升的核心原因在于Apple Silicon的统一内存架构和M5芯片开始在GPU核心中嵌入专门用于AI推理的硬件加速单元Neural Accelerator,MLX框架能更好地利用这些底层优势[4] 技术挑战与市场机遇:现有MLX框架的硬件利用不足 - 当前MLX框架支持的量化模式(如W4A16和W8A16)仅对模型“权重”进行量化,计算过程中的“激活值”仍以FP16格式运行,导致苹果为INT8运算专门设计的Neural Accelerator硬件未被完整调动[6] - 这为第三方解决方案提供了市场机遇,即通过更彻底的量化方案来更充分地利用Apple Silicon的专用硬件潜力,从而获得更显著的性能提升[6] 公司解决方案:Cider推理加速框架 - 明略科技开源了端侧推理加速框架Cider,构建于MLX之上,专为macOS与Apple Silicon设计,旨在补齐MLX原生框架的不足[7][8] - Cider提供了MLX原生框架缺失的两种量化推理模式:W8A8(权重和激活值同时量化至INT8)和W4A8(权重进一步压缩至INT4),并直接调用Apple GPU的TensorOps API以利用Neural Accelerator硬件[11][12][13] - 在单算子测试中,W8A8模式相比原生MLX W8A16方案展现出显著速度优势,在序列长度M=1024时速度提升1.82倍,M=4096时提升1.84倍,M=8192时提升1.86倍[14] - 在真实模型测试中,以Qwen3-VL-2B进行chunked prefill推理,W8A8模式下整体prefill加速约57%~61%[15] - 精度损失极小,以Qwen3-8B为例,W8A8量化后的困惑度(PPL)为9.756,与FP16原始精度(9.726)相比差距仅为0.03,同时整体Prefill耗时从FP16的179.9秒缩短至123.5秒,提速约45%[16] - Cider服务整个MLX生态,支持Qwen、Llama、Mistral等主流开源模型,开发者只需一行代码`convert_model(model)`即可接入加速[17] - Cider包含一个实验性的ANE+GPU异构并行模块,尝试在prefill阶段让神经网络引擎(ANE)与GPU协同工作,在M4芯片上的测试中带来了约3%~17%的速度提升[18][19] 公司解决方案:Mano-P GUI智能体模型 - 明略科技同步开源了GUI-VLA智能体模型Mano-P 1.0,其核心能力是通过纯视觉理解让AI直接看懂屏幕并操作图形界面(GUI),不依赖特定协议或解析[21][22][23] - 在自动化编程流水线中,Mano-P可替代人工完成GUI测试,将原本消耗超过50%云端token的开销直接归零[23] - 在基准测试中,Mano-P 1.0-72B以58.2%的成功率位列所有专用GUI智能体模型全球第一,领先第二名逾13个百分点[25] - 在端侧部署上,4B量化模型在Apple M4 Pro上可实现476 tokens/s prefill和76 tokens/s解码,峰值内存仅4.3GB,相比标准PyTorch CPU推理提速60倍以上[28] - 在Apple M5 Pro + Cider组合下,Mano-P 1.0-4B启用Cider的W8A8激活量化后,prefill时间从2.839s降到2.519s,加速约12.7%[29] 战略定位与核心理念:推动Private AI落地 - Cider与Mano-P的结合,指向了“Private AI”的理念,即让AI真正属于使用者,实现数据私有、推理私有、能力私有[34][35][36] - 该理念旨在让“数据零上云”从口号变为可部署的工程方案,实现成本可控、离线可用、数据完全自主[37] - Cider解决“速度”问题,让端侧推理足够快,使本地运行成为一个真实的工程选项;Mano-P解决“场景”问题,证明端侧AI可在具体高价值场景中真正可用[39] - 公司即将公布的下一个技术方向是“Auto Agent Learning”,旨在让跑在本地的小模型能用自然语言持续更新参数,适应用户的私有场景和习惯,重新定义AI所有权[38][39][41]
DeepSeek版Claude Code登顶热榜:8700星,鲸鱼哥火了
机器之心· 2026-05-06 12:10
DeepSeek TUI 项目概况与市场反响 - DeepSeek 版的 Claude Code 替代工具 DeepSeek TUI 在 GitHub 上迅速走红,推出后短时间内即登顶 GitHub 热榜 [1] - 项目在短时间内获得了超过 8700 个 Star,并且数量仍在快速增长 [1] - 该项目由自称「鲸鱼兄弟」的 Hunter Bown 使用 Rust 语言开发,是一个完全运行在本地的终端 AI 编程智能体 [4] 产品核心功能与技术特点 - 该工具专门为 DeepSeek 大模型(尤其是 DeepSeek V4)打造,提供终端原生、长上下文、推理过程可视化的体验 [4] - 与 DeepSeek 的推理功能深度集成,在执行复杂命令时会进入「思考模式」分析代码库 [7] - 能够将 DeepSeek 标志性的思维链实时流式输出到终端,使模型的整个分析、解决路径及自我纠错过程对开发者完全透明 [8] - 针对 DeepSeek V4 的 100 万 Token 超大上下文窗口,工具默认用满,并配有上下文压缩机制,以应对复杂项目 [8] - 具备 RLM 模式,这是一种并行任务处理机制,能同时驱动最多 16 个 V4 Flash 子任务进行批量分析,实现高效率、低成本的复杂编程任务处理 [8] - 由于 Flash 模型的输出价格仅为 Pro 模型的约三分之一,RLM 模式将大部分子任务交给 Flash 处理,能显著降低整体 API 费用 [9] - 开发人员能够直接从终端与 DeepSeek 模型进行聊天、编辑文件、运行 shell 命令、管理任务,甚至协调代码库中的子智能体 [5] 产品操作模式与市场定位 - 操作模式分为三档:Plan 模式(只读调查,输出任务拆解计划)、Agent 模式(默认交互模式,多步骤工具使用,有关键操作审批门控)、YOLO 模式(全自动,关闭手动审批)[11][12][15] - 该工具依托 DeepSeek 的低成本模型堆栈,旨在打破 Claude Code 等专有、付费、封闭生态系统的局面,以极低的成本提供类似的工作流程 [4][12] 开发者背景与项目发展 - 开发者 Hunter Bown 为美国极客,是南卫理公会大学专利法专业的二年级学生,此前学习乐队指挥与法学,属于「半路出家」的程序员 [14][17] - 其自建了名为 Shannon Labs 的工作室,定位为 AGI 时代的下一个贝尔实验室 [17] - 该项目于一月份完成,随着五月初 DeepSeek V4 的发布,项目热度出现「直角上升」 [17] - 开发者使用 AI 辅助编程打造了此工具,实现了「工作流完美闭环」,被认为是 AI 自我迭代的雏形 [19] - 开发者正在积极寻求与中国开发者交流,并承诺学习中文 [20]
阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward
机器之心· 2026-05-06 12:10
文章核心观点 - 阿里巴巴研究团队提出了一种名为PromptEcho的创新方法,用于优化文生图模型的指令遵循能力,该方法无需标注数据和训练奖励模型,仅通过冻结的视觉语言模型的一次前向推理即可获得高质量的奖励信号 [2][3][6] - PromptEcho的核心机制是利用VLM的预训练损失函数,通过计算VLM在看到生成图像后“复述”出原始提示词的对数似然值作为奖励,该方法被证明比传统的奖励模型或让VLM直接生成评分的方法更有效、更稳定,并具备良好的泛化能力 [7][9][12][18][22] - 实验表明,PromptEcho能够显著提升前沿文生图模型在密集描述和公开基准测试上的性能,并且其效果随VLM模型规模扩大而提升,同时该方法被验证为一种通用范式,可迁移至如电商海报文字渲染等其他图像生成任务 [14][17][19][20][23][24] 核心方法:「PromptEcho」 - 方法直觉:如果生成图像正确遵循了提示词,VLM在看到图像后就能以高概率逐词元复述出原始提示,这个复述的对数似然即为奖励信号;反之,奖励会降低 [7] - 具体输入与计算:方法需要三个输入:生成图像、固定的引导查询指令(如“请详细描述这张图片”)以及原始提示词;将图像和查询输入冻结的VLM,在教师强制模式下计算VLM对原始提示词每个词元的预测概率,最终的奖励是这些对数概率的平均值 [8] - 方法优势:该方法与VLM预训练的损失函数完全一致,直接复用了VLM在海量图文数据预训练中习得的图文对齐知识,因此高效且无需额外训练 [9] 实验设计与结果 - **训练数据构建**:研究团队收集了约10万张高质量图片,并使用Qwen3-VL-32B为每张图片生成约200–400词的详细描述,构成了用于强化学习训练的提示词集合 [14] - **DenseAlignBench测试**:在同源数据上构建了包含2000条提示词的测试集,使用PromptEcho(基于Qwen3-VL-32B)优化后,模型在该测试集上取得了对前沿基线模型的大幅改进 [15][17] - **公开基准测试泛化能力**:在多个公开基准测试上,经过PromptEcho优化的模型均取得一致提升。例如,Z-Image模型在GenEval上从0.75提升至0.82,在TIIF Bench-S上从84.91提升至88.50;QwenImage-2512在GenEval上从0.74提升至0.79,在TIFBench-L上从83.25提升至86.46 [19] - **奖励VLM规模效应**:使用更大规模的VLM作为奖励模型效果更好。使用Qwen3-VL-32B时,Z-Image在DenseAlignBench上的净胜率提升+26.8个百分点,GenEval得分提升至0.82;而使用Qwen3-VL-8B时,净胜率提升为+18.3个百分点,GenEval得分为0.77 [20] - **与InferScore对比**:同样基于Qwen3-VL-32B,PromptEcho使Z-Image净胜率提升+26.8个百分点,而让VLM自回归生成离散评分的InferScore方法净胜率反而下降-3.3个百分点,证明了通过预训练损失计算连续对数似然值的优越性 [21][22] 通用性验证 - **任务迁移**:研究团队将PromptEcho的核心机制迁移至电商海报文字渲染任务,仅需调整引导查询指令(改为结构化OCR识别提示)和标签格式(改为JSON格式的结构化文字标签),而核心计算不变 [23][27] - **效果提升**:经过PromptEcho强化学习优化后,海报生成模型在5000条测试样本上的全图文字正确率从68%提升至75%(提升+7个百分点),证明了该范式的通用性 [24] 总结与影响 - PromptEcho揭示了一个深刻洞察:VLM的预训练损失函数本身就是一个高质量的图文对齐奖励信号,这为优化生成模型开辟了一条无需标注和训练专用奖励模型的全新路径 [37] - 随着开源社区VLM模型的持续改进,PromptEcho所能获得的奖励信号质量及其优化效果的上限也将随之不断提高 [20][37] - 研究团队已开源相关代码、模型权重及DenseAlignBench测试集,以促进社区的进一步研究 [5][37]
Anthropic联创定下deadline:2028年AI实现自我进化,没有人类了
机器之心· 2026-05-05 12:02AI 处理中...
文章核心观点 - Anthropic联合创始人Jack Clark基于公开数据预测,到2028年底,AI系统实现递归自我改进(即自主构建和改进自身)的概率约为60% [2][18] - 其核心论据是AI在研发相关任务上的能力正快速进步,已能自动化AI工程中的大部分环节,并逐步具备端到端自动化AI研发的潜力 [10][20][75] - 尽管AI在提出革命性新思想方面仍有不足,但其在自动化“苦活累活”和串联复杂任务方面的进展,已足以推动自身渐进式发展 [60][68][69] AI研发自动化进展与证据 编码能力 - AI系统解决真实世界软件工程问题的能力飞速提升:SWE-Bench基准测试中,最佳模型成功率从2023年底的约2%(Claude 2)跃升至93.9%(Claude Mythos Preview)[24] - AI系统能独立处理的任务时长显著增长:从2022年GPT-3.5的约30秒,提升至2026年Opus 4.6的约12小时,这使其能覆盖大量AI研发中的小时级任务 [29][30][31] - 编码代理(agentic coding)工具的爆发,使AI能在更长时间内相对独立地推进任务,工程师正将越来越复杂的工作委托给AI [28][33] 核心科学技能 - **复现研究结果**:在CORE-Bench基准上,最佳模型成绩从2024年9月的约21.5%(GPT-4o)提升至2025年12月的95.5%(Opus 4.5),表明AI已能有效复现论文实验 [37][38] - **构建机器学习系统**:在MLE-Bench基准上,最佳系统得分从2024年10月的16.9%(o1模型)提升至2026年2月的64.4%(Gemini 3),显示AI构建完整ML应用的能力 [41][42] - **内核(Kernel)优化**:这是决定AI训练和推理效率的核心工程任务,已成为AI驱动研发的热门领域,具备结果易验证等适合自动化的属性 [43][46] - **模型微调**:在PostTrainBench测试中,AI系统对小型开源模型进行后训练,能获得约人类训练结果一半的性能提升(AI得分25%-28%,人类基线为51%)[48][50] 管理与元技能 - AI系统正学习管理其他AI系统,例如在Claude Code等产品中,主代理可监督多个子代理,形成能处理更大规模项目的“合成团队” [56][57][78] - 在优化语言模型训练任务中,AI实现的平均加速倍数进展显著:从2025年5月的2.9倍(Claude Opus 4)提升至2026年4月的52倍(Claude Mythos Preview),远超人类研究员通常所需的4-8小时工作才能实现的4倍加速 [52][55][63] 对AI研发本质与未来路径的研判 - AI领域的进步更多依赖扩大规模(数据、算力)和扎实的工程调试,而非频繁的革命性洞见,这使擅长执行模式化任务的AI系统有能力推动领域渐进发展 [61][64][67] - 已有初步迹象显示AI能推动特定科学前沿(如数学、计算机科学),例如基于Gemini的系统解决了开放的Erdős数学问题,但这可能仅限于特别适合AI的领域 [72][73][74] - 主要AI公司已将自动化AI研发列为明确目标,例如OpenAI计划在2026年9月前构建自动化AI研究实习生,Anthropic在研究自动化AI对齐,创业公司Recursive Superintelligence为此融资5亿美元 [77][79][80] 潜在影响与行业动向 - AI研发自动化将带来巨大的生产力倍增效应,并可能催生资本密集、人力依赖度低的新型公司和经济形态 [83] - 数千亿美元级别的资本正投入以自动化AI研发为目标的机构,行业预期该方向至少会取得某种程度的进展 [80][81] - 作者将2027年底实现递归自我改进的概率预估为30%,到2028年底升至60%,若未实现则可能揭示当前技术范式的根本缺陷 [85][86]
Agent-World:扩展真实世界环境,让智能体与环境协同进化!
机器之心· 2026-05-05 12:02AI 处理中...
随着 MCP 、 Agent Skills 与各类 Harness 的快速发展,大模型能轻松调用成百上千种外部工具,但 在 多工具,具备复杂状态、长程交互的任务上仍有明显短板 。 尽管一系列环境扩展方法尝试复刻真实 世界的交互环境(如订票系统,外卖平台),但仍 受限于 环境扩展的规模与真实性 。除此以外,训练 环境造得再多,当智能体在面临新的交互环境时, 若 缺少持续学习的训练算法依旧很难具备泛化性。 为此,本文 提出 Agent-World : 一个通用智能体训练场,将 " 智能体环境探索 " 与 " 自进化训练 " 相结合,形成智能体与环境协同进化的闭环 。 Agent-World 由两个核心模块构成: ( 1 ) 智能环境 - 任务探索 : 通过深度研究智能体,围绕真实世界环境主题,自主从互联网挖掘环 境数据库、生成可执行工具和可校验任务。 ( 2 ) 持续自进化训练 : 通过多环境强化学习训练智能体,并将合成环境视作天然的训练场,自动 诊断智能体的能力短板,针对性地推动环境 / 任务扩展,实现智能体的自进化。 图 1 : Agent-World 总览 :左图 展示 Agent-World 智能体与环境 ...