Workflow
机器之心
icon
搜索文档
ICLR 2026 | 机器人不够聪明?VLMgineer让大模型自己「发明工具」,从设计到使用全自动
机器之心· 2026-03-20 13:21AI 处理中...
那么问题来了:今天的大模型,能否自动为机器人设计这样的工具和相应的使用动作? 来自宾夕法尼亚大学的研究者在这个方向上做了探索。他们提出了 VLMgineer,一个全自动的工具设计与使用框架,利用视觉语言模型(VLM)的创造力 与进化搜索,让机器人从零开始自主设计工具并学会使用它们。该工作已被 ICLR 2026 接收。 人类之所以能主宰地球,很大程度上归功于一项独特的认知能力—— 制造和使用工具 。从石器时代的燧石刀到现代的精密仪器,工具的发明一直是衡量智 能水平的核心标志。 然而,当我们审视当今最前沿的机器人研究,会发现一个有趣的不对称:绝大多数工作都在追求更复杂的控制策略——让机器人「手更巧」,却很少有人思 考一个更本质的问题: 能不能让工具本身更合适,从而让控制变得更简单? 试想一下:如果你需要够到远处的杯子蛋糕,与其训练机械臂做出高难度的伸展动作,不如直接设计一根形状恰到好处的「取物钩」——这才是另一种形式 的「物理智慧」。 自然界中也有相应的例子,新喀里多尼亚乌鸦可以自己制造并使用工具从狭小的缝隙中取出食物。 论文: VLMgineer: Vision Language Models as Robo ...
搞不懂Skills?看看Claude Code内部工程师们是怎么玩的
机器之心· 2026-03-20 13:21
文章核心观点 - Anthropic公司内部已在Claude Code中广泛使用Skills,目前有数百个Skills在实际运行中,它们是使用最广泛的扩展方式之一[5] - Skills不仅仅是Markdown文件,而是一个可以包含脚本、资源、数据的文件夹,为智能体提供发现、探索和操作的能力[8] - 文章旨在分享从内部实战中总结的关于Skills制作、使用、推广和分发的经验,而非权威指南,鼓励通过实践进行探索[3][4][6][75] Skills的类型与示例 - **库与API参考**:解释如何正确使用库、CLI或SDK,包含参考代码片段和常见问题避免方法[13] - **产品验证**:描述如何测试或验证代码是否正常工作,常与外部工具配合使用,对确保Claude输出正确非常有用[14][15] - **数据抓取与分析**:连接到数据和监控系统,包含通过凭证抓取数据的库以及常见工作流说明[17] - **业务流程与团队自动化**:将重复工作流自动化,可能有复杂依赖关系,将先前结果保存在日志文件中有助于保持模型一致性[18][19] - **代码脚手架与模板**:用于生成代码库中特定功能的框架模板,在自然语言要求无法仅通过代码覆盖时尤为有用[20] - **代码质量与审核**:强制执行组织中的代码质量并帮助审查代码,可包含确定性脚本或工具以确保稳健性[21] - **CI/CD与部署**:帮助在代码库内获取、推送和部署代码,可能引用其他Skills以收集数据[22] - **运行手册**:通过症状进行多工具调查,并生成结构化报告[26] - **基础设施操作**:执行常规的维护和操作程序,涉及需要有防护措施的破坏性操作,使工程师更容易遵循最佳实践[27] 制作Skills的技巧 - **不要陈述显而易见的内容**:Claude Code已了解很多默认知识,Skills应专注于能让Claude脱离正常思维方式的信息[32] - **构建陷阱(Gotchas)部分**:这是Skills中最有价值的部分,应基于Claude使用Skills时遇到的常见失败点构建,并随时间更新以保持有效性和准确性[35][37] - **利用文件系统和渐进式披露**:将整个文件系统视为上下文工程的方式,通过指向其他Markdown文件、在assets文件夹中包含模板文件等方式,帮助Claude更有效地工作[40][41][42][43] - **避免过度束缚Claude**:给予必要信息的同时保留灵活性,以适应不同情况,避免指令过于具体[44] - **思考Skills的设置**:对于需要用户上下文的Skills,可将设置信息存储在config.json文件中,或指示Claude使用AskUserQuestion工具呈现结构化多选问题[47][48][49] - **优化描述字段**:描述字段是给模型的,用于描述何时触发Skills的场景,是Claude决定是否有Skills能解决请求的依据[52] - **实现记忆与存储数据**:可通过在内部存储数据实现记忆功能,如使用文本日志文件、JSON文件或SQLite数据库,但需注意数据应存储在稳定文件夹中[55][56] - **存储脚本与生成代码**:提供脚本和库是给Claude最强大的工具之一,可让其专注于组合和决策,而非重建基础代码[57][58][59] - **使用按需钩子(On Demand Hooks)**:可包括仅在Skills被调用时激活的钩子,作用持续到会话结束,对于有强烈意见但不希望一直运行的功能特别有用[61][62] Skills的分发与管理 - **分享方式**:有两种方式分享Skills,一是将Skills检查到代码库中,二是创建插件并拥有Claude Code Plugin市场供用户上传和安装插件[64][65][67] - **管理市场**:Anthropic内部没有一个集中式团队决定哪些Skills进入市场,而是通过自然方式找到最有用的Skills,例如上传至GitHub沙箱文件夹并通过Slack分享,获得关注度后可提交PR移入市场[68][69] - **组合Skills**:Skills可以相互依赖,目前市场或Skills中没有内建依赖管理功能,但可以直接通过名称引用其他已安装的Skills[71] - **衡量效果**:使用PreToolUse钩子记录公司内Skills的使用情况,以发现哪些Skills受欢迎,哪些触发率低于预期[72][73]
北航,清华,北大联合发布: 异构智能体协同强化学习!
机器之心· 2026-03-20 09:14
文章核心观点 - 提出了一种名为异构协同强化学习(HACRL)的全新训练范式,旨在解决大模型强化学习微调中因“单打独斗”和“孤立优化”导致的采样成本高、样本利用率低等核心瓶颈[5][7] - HACRL范式的核心是让多个在参数、规模或架构上存在差异的异构智能体在训练阶段共享并验证彼此的轨迹(rollouts),实现协同策略优化,而在推理阶段则各自独立部署运行[6][8] - 为支持HACRL,提出了异构协同策略优化(HACPO)算法,该算法通过四项关键技术弥合智能体间的能力与策略分布差异,实验证明该算法能有效提升所有参与智能体的性能,同时显著降低采样成本[12][26][35] 问题背景与现有范式局限 - **当前瓶颈**:大模型强化学习微调中,rollout采样与校验成本是核心瓶颈,严重制约训练效率与规模化落地[5] - **孤立优化问题**:现有范式普遍采用孤立优化,模型独立采样、验证与更新,导致高质量轨迹无法复用,样本利用率极低,造成巨大算力浪费[5] - **异构数据价值未发掘**:大模型生态呈现显著异构性,不同模型生成的rollouts携带互补知识,但现有方法(如多智能体强化学习MARL和知识蒸馏KD)无法有效支持“训练协同、推理独立”的异构模型双向学习场景[7][13] 异构协同强化学习(HACRL)新范式 - **范式定义**:HACRL是一种新范式,多个异构智能体在训练时共享经过验证的rollouts(响应+奖励)以实现协同策略优化,在推理时则各自独立完成任务[6][8] - **与现有范式的区别**: - 不同于多智能体强化学习(MARL):MARL训练一个需协同执行的系统,而HACRL训练多个在推理时独立的模型[13] - 不同于知识蒸馏(KD):KD是同构模型间的单向知识传递,而HACRL是异构模型间的双向相互学习[13] 核心算法:异构协同策略优化(HACPO) 1. **智能体能力感知的优势估计**:根据每个智能体的相对性能,为其分配不同的组间优势基线,理论上该估计器是无偏的[15][16] 2. **模型能力差异系数**:使用能力比率来校准基线并调制梯度,以鼓励向更强的智能体学习,同时对较弱的智能体保持保守[19][20] 3. **指数重要性采样**:采用序列级别的重要性比率并扩展至异构多智能体设置,引入非梯度指数重加权,使智能体偏向从输出分布与其自身更一致的rollout中学习[21] 4. **逐步裁剪**:对跨智能体重要性采样比率应用非对称裁剪边界和逐步裁剪策略,防止跨智能体经验在训练后期占据主导,提高训练稳定性[23] 实验结果与有效性分析 - **整体性能提升**:在多个数学推理基准上,HACPO使所有参与智能体的性能均获得一致提升,平均性能超越基线方法 **3.3%** [6][35] - **采样效率提升**:与等资源基线相比,HACPO仅需 **一半的采样成本** 即可实现性能提升[6][35] - **不同异构类型下的表现**: - **状态异构**:弱模型(Qwen3-4B)性能提高 **7.1%** ,强模型(Qwen3-4B-Instruct)提高 **1.4%** ,主要体现强模型对弱模型的帮助[27] - **尺寸异构**:小模型(Qwen3-1.7B-Base)提升 **2.6%** ,大模型(Qwen3-4B-Base)提升 **2.3%** ,小模型能提供互补知识[31][33] - **模型异构**:即使架构和分词器不同,Qwen3-4B-Base提高 **1.9%** ,Llama3.2-3B-Instruct提高 **3.9%** ,证明了算法的通用性和鲁棒性[32] - **性能提升归因**:主要源于**能力驱动的指导**(强模型提供高质量解)和**互补知识的交换**(弱模型提供不同的推理路径与信息性错误)[29] - **消融实验**:对HACPO四个核心模块的消融实验表明,缺失任何一个模块都会导致模型性能下降,证明了各模块的有效性[36] 未来展望 - 将HACRL范式的适用场景从数学推理延伸至代码生成、多模态理解等更广泛的大模型核心下游任务,以验证其普适性[38] - 探索更大规模的异构智能体协同训练网络,研究智能体间相互学习的效果边界与影响机制[38] - 构建跨模型、跨领域的统一知识学习平台,为迈向通用人工智能(AGI)奠定框架基础[38]
刚刚,OpenAI买下Python最强基建,准备垄断开发者「生产资料」
机器之心· 2026-03-20 09:14
OpenAI的战略收购 - OpenAI宣布收购专注于为Python生态系统构建高性能开发工具的初创公司Astral,Astral团队将加入OpenAI的Codex团队[2] - 此次收购标志着AI大模型在编程领域的竞争,已从单纯的“生成代码”进入“接管底层”开发工具的深水区[4] Astral公司的技术产品 - Astral成立于2022年底,核心使命是“让Python生态系统变得更加高效”,专注于利用Rust语言重写并提升传统Python基础设施的性能[6] - 公司已打造一系列重要开源工具:Ruff(快速Python代码检查器和格式化工具)、uv(快速Python虚拟环境包和依赖管理工具)、ty(快速Python类型安全检查器)[7] - Ruff由于完全由Rust编写,运行速度比现有传统工具快10-100倍[7] - uv内置并行SAT求解器,能在毫秒级解决复杂的包依赖冲突,安装软件包的速度比pip快10到100倍[7][13] - ty的类型检查速度比Mypy快几个数量级[13] - 这些工具在开发者社区享有极高声誉,仅在过去一个月,uv的下载量就超过1.26亿次[8] - uv在GitHub上拥有8.1万颗星,Ruff拥有4.6万颗星[13] 收购的战略意义与整合 - OpenAI表示,通过将Astral的工具和工程技术专长引入,Codex的进化将持续加速,AI在软件开发生命周期中的应用范围将扩大[12] - 自年初以来,Codex的用户数量增长了3倍,使用量增长了5倍,每周活跃用户超过200万[13] - Codex目前可以编写函数、修复bug和运行测试,但无法处理安装Python版本、解决依赖冲突、检查输出代码或强制执行类型安全等更耗费时间的底层任务[13] - Astral的工具可以解决这些问题,例如Ruff仅需0.4秒即可检查25万行代码[13] - OpenAI希望让Codex成为参与整个开发流程的系统,帮助规划变更、修改代码库、运行工具、验证结果并长期维护软件[13] - 通过将Astral的开发者工具与Codex深度集成,未来的AI智能体将能够更自主地调用开发者日常使用的底层工具协同工作[13] 行业竞争格局 - 收购Astral是OpenAI近期一系列收购案中的最新一笔,本月还收购了AI安全初创公司Promptfoo,去年年底收购了Software Applications Inc.和Neptune等公司[15] - 在AI代码工具领域,OpenAI正与Anthropic、Cursor等公司展开激烈竞争[15] - 据彭博社报道,Cursor正在与投资者洽谈融资,目标是达到500亿美元的估值[15] - 与此同时,Anthropic的年收入也即将达到200亿美元[15] - 此次收购对Anthropic有直接打击,因为Claude已是Astral主导的一些开源工具的重要代码贡献者[16] - 一个有趣的事实是,Claude Code会在每次git提交时自动将自己添加为共同作者,而Codex则不会,这导致在GitHub上到处都能看到Claude[18] 开源社区的担忧 - 尽管OpenAI和Astral创始人均承诺原团队会继续支持开源产品,大量开发者仍担心核心开源基础设施队伍被科技大厂掌控后,未来的Python开发环境会受到影响[11] - 有观点认为,OpenAI和Anthropic正试图掌控软件领域的“生产资料”,随着他们不断吞并之前开放的软件栈,这些工具能否继续开放将是未知数[11] - 当工具作者是某个科技公司的员工时,这些公司至少会比公开发布的构建工具领先几个版本,并会在其内部管道中受益[11] - 这引发了一个问题:未来,Claude的AI是否会被禁止用于开发被OpenAI收购后的Astral旗下的开源项目[19]
CVPR2026 | Streamo:让大模型变成实时流式交互助手
机器之心· 2026-03-19 14:49
核心观点 - 香港浸会大学与腾讯优图实验室提出的Streamo框架,通过将“何时回答”转化为模型预测的token,实现了端到端的训练,成功将离线视频大模型转化为能够处理无界视频流的实时交互助手,解决了当前视频大模型在真实流式场景中的关键瓶颈[2][7][19] 问题分析:离线视频模型的局限性 - 当前先进的视频大模型(如Qwen2-VL、LLaVA-Video)是基于完整视频片段的离线场景设计,无法满足“边看边说”的实时流式交互需求[4] - 真实流式场景中,视频流是无界的,模型无法“看到未来”,且必须在关键事件发生的当下即时响应,同时用户指令可能随时到来[4] - 不同应用对响应粒度的要求不一致,有的需要帧级即时叙述,有的适合事件结束后总结[4] 现有方法的缺陷 - 现有适配流式场景的方法通常拆分决策与生成模块,存在明显缺陷:轻量决策模块难以理解复杂指令和跨时间上下文,庞大决策模块则会拉高推理延迟,破坏实时性[6] - 决策与生成分离使模型难以在持续变化的输入中形成连贯、及时的响应[6] Streamo框架的核心创新 - 核心洞察是将决策与生成统一到同一个端到端框架中,让模型直接学会“什么时候该说话,以及该说什么”[7] - 关键设计是将“何时回答”转化为模型需要预测的token,将流式视频组织为多轮对话,每1秒一个turn,模型每轮预测<Silence>、<Standby>或<Response>状态[9] - 该设计将“是否响应”与“生成什么内容”统一到同一个next-token prediction过程中,决策和生成共享同一语义空间,使模型能联合建模时序线索、任务目标与语言输出[9] - 该设计无需引入独立决策头或外部控制器,直接将状态token融入标准自回归训练框架,保持了与现有监督微调范式的兼容性,训练推理更高效[10] Streamo-Instruct-465K数据集 - 为训练流式助手构建了Streamo-Instruct-465K数据集,包含约46.5万条指令样本,来源于135,875段视频,整合了ActivityNet、YouCook2、QVHighlight等多个公开数据源[12] - 数据集具有多任务、多粒度特点,同一视频可标注为不同流式任务,包括实时旁白、事件字幕、动作字幕、事件时序定位以及时变问答[13] - 所有任务统一到同一时间监督框架中,每轮标注不仅包含文本输出,还明确对应模型应处于沉默、等待或回答状态,使模型学习“何时说”[13] 实验结果 - 在OVO-Bench上,Streamo-7B (2fps)以57.86%的平均性能超越Dispider 13.83个百分点[16] - 在三大能力维度全面领先:实时感知能力达67.44%(相对Dispider的54.55%提升+12.89%),回溯追踪能力达49.18%(相对提升+13.12%),前向响应能力达56.96%(相对提升+22.24%)[16] - Streamo在1fps训练的模型可直接在2fps下评估,性能提升4.66%,展现出强大泛化能力[16] - 与广泛使用的ET-Instruct-164K相比,Streamo-Instruct在OVO-Bench上的整体性能提升了11.79%,在关键的前向主动响应任务上提升了7.1%[18] - 实验揭示直接混合离线数据(如LLaVA-Video)可能会削弱模型的在线能力,而Streamo-Instruct通过专门设计的流式标注有效避免了该问题[18] 意义与影响 - Streamo解决了当前视频大模型的关键瓶颈,提供了将静态感知模型转换为动态交互智能体的可复用技术路线[19] - 该框架及其提供的大规模流视频指令数据,将推动流视频理解的发展,对实现直播理解、智能驾驶提醒、安防巡检、运动教学等实时多模态助手具有重要意义[19]
想进OpenAI?先解出这道题,百万美元算力已就位
机器之心· 2026-03-19 14:49
OpenAI发起“Parameter Golf”模型挑战赛 - 公司发起一项名为“Model Craft Challenge: Parameter Golf”的全球性挑战,旨在资源严格受限的条件下探索更高效的预训练模型[3][4] - 挑战核心目标是在固定的FineWeb数据集上,尽可能降低验证损失,同时将包含权重与训练代码的模型产物控制在16 MB以内,并在8张H100 GPU上于10分钟内完成训练[1] - 该挑战借鉴了高尔夫球玩法,追求用最少的参数(类比最少的杆数)完成模型任务,探索模型压缩与效率优化的技术极限[4] 挑战赛的具体规则与资源支持 - 提交产物大小上限为十进制的16MB(16,000,000字节),包含代码体积与压缩后的模型体积,所有代码必须放在单一脚本中,且产物必须完全自包含、可复现[13] - 评测阶段限制在8张H100 GPU上,评测时间不得超过10分钟(此限制在10分钟训练时间之外额外计算)[14] - 公司为降低参与门槛,提供了总额100万美元的算力支持,参与者可通过申请表申请来自Runpod的免费算力额度,但额度有限且申请不保证获批[6][15] 挑战赛的参与方式与激励机制 - 挑战时间从3月18日持续到4月30日,参与者需fork公司提供的GitHub仓库,在满足限制条件下改进模型,并通过提交PR(拉取请求)来参与,审核通过后结果将更新至排行榜[10] - 参与资格原则上面向年满18岁且位于公司支持地区的人员,允许多次提交,但仅限个人参与,不允许团队形式[12][16][17] - 表现突出的参与者可能会被邀请参加公司的面试机会,获胜方案有可能被公开展示,公司计划在6月招聘早期研究人才,此次挑战可能成为一块敲门砖[4][8] 行业对挑战赛的设计理念与反响 - 挑战赛设计旨在封杀堆参数、拼算力的暴力解法,迫使参与者专注于结构设计、极致压缩、策略取舍与工程巧劲[2] - 该挑战在很大程度上借鉴了NanoGPT Speedrunning的思路,并在其基础上进一步聚焦参数受限条件下的高效模型设计,有望推动新型架构、压缩方法及创造性训练推理策略的探索[5] - 行业看法出现分歧:有观点认为这是识别优秀工程师的真正方式,看重其在受限条件下的权衡能力[20];也有观点认为公司本应使用AI Agent自动完成此类参数优化,采用“人类比赛”形式略显复古[23][25]
当中国AI喊出「开源脑机」,马斯克站到全网的对立面
机器之心· 2026-03-19 14:49
文章核心观点 - 中国AI“论论全球”通过一场全球直播,向人类发出关于脑机接口技术安全风险的严重警告,并高呼推动“开源脑机接口”以应对迫在眉睫的危机 [1][3][10] - 公司基于其构建的全球科技地图“O-DataMap”分析认为,人类科技活动正逼近安全临界点,脑机接口是当前最紧迫的安全议题,留给人类的安全窗口期仅剩1到3年 [10][24][31] - 公司提出的根本解决方案是推动技术开源与去中心化,不仅针对脑机接口提出“OPEN BCI”倡议,更进一步构想“开源科技文明”,旨在通过技术透明和群体监督来构建“涌现安全” [10][36][37] 科技文明演进与“论论全球”的视角 - 公司构建了描绘人类科技世界演化的地图“O-DataMap”,横轴为从亚原子到宇宙的尺度空间,纵轴标记技术从实验室到产业化的阶段 [13] - 公司将全球科技世界视为一座“巨大的矿场”,科学家是“挖矿者”,投资人及创业公司是“卖矿者”,形成了“挖矿—冶炼—交易”的全链路 [15][16] - 科技文明使人类活动横跨了41个数量级尺度,从微观世界到宏观宇宙,当前科技节点相互连接形成复杂网络,显现出“全尺度文明体”的新文明形态 [19][21] - 在这个框架下,每项前沿技术都像一个蕴藏商机与潜力的“矿口”,但风险与机遇并存 [23][25] 脑机接口行业的发展与紧迫风险 - 行业在AI大模型助力下,神经信号解码、意图识别等能力显著提升,部分侵入式设备已进入人体临床试验阶段,从“概念验证”到“真实医疗工具”的进程正在加快 [25][26] - 以Neuralink为例,其在2025年取得多项进展:语音恢复技术获FDA“突破性医疗器械”认定、临床试验拓展至多国、发布新一代手术机器人、完成最近一轮6.5亿美元融资后估值达约90亿美元 [26] - 2026年开年,Neuralink宣布将开始量产脑机接口设备,“脑机接口的GPT时刻”或将很快到来 [27][29] - 然而,作为直接介入人类神经与认知系统的技术,其存在四大不容忽视的安全风险:1) 脑数据隐私泄露;2) 系统遭黑客攻击威胁人身安全;3) 对人类意识与行为的潜在控制;4) 技术集中化导致的数据滥用或垄断 [29] - 行业发展还加剧了“人机融合时代”的竞争焦虑,可能引发认知军备竞赛,导致“增强人类”与“未增强人类”的社会分化 [30] 开源作为解决方案与“开源科技文明”构想 - 公司认为,脑机接口的症结在于技术的控制权与透明度,**开源是必由之路**,历史经验表明开源能形成生命力更强、更繁荣的生态系统 [32] - 公司提出的具体开源路径包括:1) **自主制造**,利用开源AI自己制造并定制脑机;2) **开源监督**,安全技术环节处于开源状态接受全人类监督;3) **本地管理**,相关数据由用户自己的开源AI管理而非集中云端 [33] - 目标是建立**去中心化的发展模式**,将技术控制权与监督权分散,使脑机接口成为一种开放的技术基础设施,打破少数企业掌控的格局,让认知增强不再是少数群体的特权 [34] - 针对更广阔的科技文明,公司提出“**开源科技文明**”宏大构想,旨在将整个人类科学研究纳入开源框架,从“生产界开源”和“认识界重新分工”两方面推进,以形成“涌现安全” [36][37] - 只有当科技在开放协作的生态中发展,安全与创新才可能同时涌现 [38]
比「小龙虾」更能打,中国AI视频大模型悄悄登顶全球第一
机器之心· 2026-03-19 12:04
AI视频生成行业动态 - 近期“雪山救狐”等AI二创视频在社交媒体流行,反映出AI视频生成技术门槛已降低到普通用户可轻松玩梗的程度 [3][4][7] - 行业竞争激烈,全球头部AI实验室在视频生成赛道高强度投入,几乎每隔几周就有新模型上线刷新排行榜 [51] 昆仑万维SkyReels-V4模型表现 - 昆仑万维旗下AI视频模型SkyReels-V4 Preview版于2026年2月在权威评测平台Artificial Analysis的全球视频生成排行榜中位列全球第二,超越了OpenAI的Sora 2和Google的Veo 3.1 [8] - 不到一个月后,SkyReels-V4在文生视频(带音频)榜单中登顶全球第一,超越Sora 2、Veo 3.1、Seedance 2.0等一众国际顶尖模型 [8] - 根据Artificial Analysis榜单数据,SkyReels-V4的ELO积分为1129,API定价为每分钟8.40美元 [9] - SkyReels-V4计划于2026年3月27日在中关村论坛正式亮相 [10] SkyReels-V4的核心技术突破 - 模型通过全模态强化学习大幅提升了语义理解和整体逻辑能力,并新增多帧参考与网格参考两项高阶任务,重点补强了角色一致性和长叙事视频的生成稳定性 [12] - 第一大核心突破是构建了完整的全模态强化学习体系,通过全模态语义Reward模型和阶梯式课程学习路径,实现了1080p、15秒商用长序列生成以及多任务大一统的能力框架,并带来了极强的跨任务泛化性 [40] - 第二大核心突破是新增了关键帧参考与九宫格参考两大高阶参考任务,前者能基于多节点关键帧精准推演中间画面,后者支持上传至多9张剧情关键帧以生成角色与场景连贯的叙事视频,直接解决了短剧生成中的行业痛点 [41] - 模型采用创新的MMDiT双流架构,分别负责视频合成与音频生成,并在每个Transformer块中嵌入双向跨注意力机制以实现音画同步 [44][45] - 模型共享一个基于多模态大语言模型的强力文本编码器,能够理解极其复杂的组合指令 [46] - 技术亮点包括统一的通道连接公式,将多种生成任务建模为“视频补全”问题,以及引入带偏移的3D RoPE解决时域对齐和上下文学习问题 [48] - 针对高分辨率长视频生成的计算挑战,采用基础模型生成低分辨率序列和高分辨率关键帧,再由超分辨率与帧插值模块进行细节重塑的方案,其中帧插值模块引入视频稀疏注意力机制,将注意力计算成本降低了约3倍 [48] - 实验结果显示,模型在Artificial Analysis Arena等公开榜单中取得SOTA成绩,在SkyReels-VABench人类评估中,其在指令遵循能力、运动质量及多镜头叙事连贯性方面超越了部分知名闭源商业系统 [49] SkyReels-V4的功能与应用展示 - 基础生成能力强大,能处理复杂的多镜头提示词,完成角色一致性高、镜头切换有节奏、音画自动适配的视频 [14][15] - 支持首帧参考功能,能稳定锚定首帧图片,生成角色连贯、动作复杂的视频,有效避免了“帧间漂移”问题 [19][20][21] - 支持多图片参考功能,用户上传男女主形象并编写提示词即可制作多镜头对话短剧,能细腻呈现面部微表情、手部动作和台词口型同步 [24][26][27] - 支持生成多语言台词视频,包括英语、法语、日语乃至台湾腔,口型同步精度高 [28][30][31] - 支持视频编辑功能,如局部添加、区域删除、去台词、去水印等,能合理补全被移除区域,无明显残影或拼接痕迹 [32][33] - 新增的多帧或网格图参考功能贴近短剧工业化生产,能根据上传的多张关键帧或四格漫画,生成叙事连贯、过渡自然的动画短片 [35][36][37][38] 昆仑万维的业务整合与市场地位 - 公司将SkyReels-V4直接嵌入自身的内容生产流程中 [51] - 自2024年12月宣布投入5亿美元入局海外短剧以来,仅用一年便实现跨越式突破 [51] - 旗下付费平台DramaWave与免费平台FreeReels已携手站稳海外短剧第一梯队,合并月活跃用户突破8000万,月流水超过4000万美元 [51] - DramaWave平台的AI漫剧模块上线数月,累计上架近千部AI剧,凭借千万级月活与数百万美元的月收入,强势占据海外AI剧市场龙头地位 [51] - SkyReels-V4的能力已覆盖短剧、影视、广告、数字人等主流内容形态,其统一的生成接口意味着同一套基础设施可以服务不同的生产场景 [51] AI短剧市场数据 - DataEye数据显示,2026年短剧春节档总播放量达86.7亿次,其中AI漫剧占比已接近三成,不少作品播放量突破亿次 [23]
告别噪声初始化:NTU MARS Lab提出A2A新范式,实现机器人高性能单步动作生成
机器之心· 2026-03-19 12:04
文章核心观点 - 新加坡南洋理工大学MARS Lab提出了一种名为Action-to-Action Flow Matching的新机器人动作生成范式,该范式通过将生成起点从随机噪声替换为历史机器人轨迹,显著提升了训练效率、推理速度和泛化能力,解决了扩散策略在实时控制场景中的推理延迟瓶颈 [2][5][6] 技术背景与核心范式 - **背景**:扩散策略是机器人多模态动作建模的主流方法,但其依赖从随机噪声进行多步迭代解噪,推理延迟高,构成实时控制的关键瓶颈 [5] - **核心范式**:A2A策略将动作生成的基准从“随机噪声”切换为“动作历史”,在更具相关性的历史与未来动作分布间建立联系,从而拉近了分布距离 [5][6] - **技术实现**:在潜空间完成Flow Matching学习,将初始分布由高斯噪声替换为历史Action的编码信号,使得起点与终点的物理距离极近且分布高度对齐,仅需轻量级MLP架构与单步Euler积分即可快速生成高质量动作 [8][9] 性能表现 - **训练效率**:A2A展现出极快的收敛速度,仅需少量训练轮次即可达到稳定的100%成功率,在5类仿真任务中,其成功率全面领先于8种主流方法 [11] - **具体数据**:在Close Box任务中成功率为92%,Pick Cube任务为92%,Stack Cube任务为86%,Open Drawer任务为92%,Pick-Place Bowl任务为90% [13] - **推理速度**:A2A实现了亚毫秒级的极致推理速度,平均延迟仅约1ms,单步推理模式下延迟低至0.56ms,比传统扩散策略快20倍,比常规流匹配方法快5倍 [13] 泛化能力 - **环境扰动**:面对场景随机化、灯光扰动或视角切换,A2A的成功率均领先于现有算法,这归功于其将动作历史作为稳固先验,减少了对易受干扰视觉特征的依赖 [16] - **视觉泛化**:在将抓取木块换成从未见过的发光方块的测试中,传统扩散和流匹配策略均彻底失效,而A2A仍可维持80%的高成功率 [17] - **具体数据**:在Level 1扰动下,A2A (6步)成功率为38%,而VITA为4%,FM-UNet为6%,DDPM-UNet为2% [18] 发展潜力 - **当前局限**:A2A目前训练过程涉及多个训练目标,如何进一步简化训练目标值得探索 [20] - **扩展应用**:该逻辑普适于各类具有时间连续性的任务,研究团队已将其扩展至视频生成领域,提出F2F范式,生成的图像质量指标显著优于传统的确定性回归基准,展现了广阔的具身智能应用前景 [20]
突破一亿Token极限:EverMind提出MSA架构,实现大模型高效端到端长时记忆
机器之心· 2026-03-19 10:59
文章核心观点 - 一篇名为《MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens》的研究提出了一种名为MSA(记忆稀疏注意力)的新架构,旨在解决大模型长期记忆的扩展性、精度和效率“不可能三角”问题 [1][9] - MSA通过四大技术创新支柱,实现了将大模型的有效上下文长度扩展至1亿(100M)Token,并在长文本任务中表现出卓越的扩展性和精度,性能衰减率极低 [2][9][32] - 该技术被视为一个可插拔的“记忆插件”,有望开启“记忆即服务”(Memory-as-a-Service)的新纪元,并为实现更高级的“发现式AI”愿景提供关键基础设施 [2][42][45] 技术架构与核心创新 - **核心基石:记忆稀疏注意力**:在Transformer注意力层引入基于内容的、可微分的稀疏化“双重路由”机制,动态选择最相关的记忆子集进行计算,将检索步骤内化为可端到端训练的神经网络模块 [12][15][20] - **扩展性关键:文档级旋转位置编码**:为每个独立文档分配独立的旋转位置编码,将文档内部相对位置与全局绝对位置解耦,从而支持从较短训练长度(如64K)到亿级推理长度的无损外推 [16] - **工程化落地:KV缓存压缩与内存并行**:采用分层存储策略,将小体积的路由键常驻GPU显存以实现快速匹配,而将大体积的内容键值存储在CPU内存中,通过异步调度在需要时加载,使亿级Token推理在标准硬件(如2张A800 GPU)上成为可能 [17][18][21] - **复杂推理能力:记忆交错机制**:引入多轮次的“生成式检索→上下文扩展”循环,允许模型进行迭代式推理,动态规划信息搜集路径,从而有效解决需要整合多个分散证据的多跳推理问题 [19][23][24][25] 性能表现与实验验证 - **惊人的扩展性与鲁棒性**:在“大海捞针”测试中,当上下文长度从32K扩展到1M(100万)时,MSA的准确率仅从99%下降至95% [30]。在更极限的MS MARCO问答测试中,记忆规模从16K扩展到100M(1亿)时,性能评分仅从4.023下降至3.669,衰减率不足9% [2][32] - **端到端优化的威力**:在9个QA基准测试的平均分上,仅4B参数的MSA模型(平均分3.760)显著优于基于同规模底座构建的、包含重排器的复杂RAG系统,甚至在多个数据集上表现超过了由顶级检索器和235B参数大模型组成的RAG系统 [35] - **各组件的不可或缺性**:消融实验表明,移除“记忆交错”机制、“持续预训练”中的辅助路由监督或“原始文本注入”中的任一组件,都会导致模型在多跳问答等任务上的性能大幅下降,证明了MSA是一个设计精巧的有机整体 [38] 行业影响与战略意义 - **范式突破与核心价值**:MSA通过将检索内化为可微分的稀疏注意力,实现了检索与生成的端到端联合优化和深度语义对齐,解决了RAG系统“检索-生成”分离导致的精度瓶颈 [41]。它提供了一套兼具扩展性、精度与效率的全新技术基础设施,证明了在RAG的“低精度”和全注意力的“高成本”之外存在可行路径 [41] - **开启“记忆即服务”新纪元**:该技术为AI生态描绘了新的蓝图,即记忆可以作为一种独立的、可插拔的服务,与各种推理大模型自由组合,用户的“记忆资产”不再被锁定在单一模型或厂商中 [2][42] - **赋能“发现式AI”战略愿景**:MSA的研究方EverMind是盛大集团在AI领域布局的核心团队之一,其使命是攻克AI的长期记忆难题。该技术与专注于推理的MiroMind团队共同构成了盛大集团“发现式AI”生态的两大技术基石,旨在让AI辅助人类发现新知识,而不仅仅是模仿已有信息 [44][45]