Workflow
机器之心
icon
搜索文档
刚刚,OpenAI买下Python最强基建,准备垄断开发者「生产资料」
机器之心· 2026-03-20 09:14
OpenAI的战略收购 - OpenAI宣布收购专注于为Python生态系统构建高性能开发工具的初创公司Astral,Astral团队将加入OpenAI的Codex团队[2] - 此次收购标志着AI大模型在编程领域的竞争,已从单纯的“生成代码”进入“接管底层”开发工具的深水区[4] Astral公司的技术产品 - Astral成立于2022年底,核心使命是“让Python生态系统变得更加高效”,专注于利用Rust语言重写并提升传统Python基础设施的性能[6] - 公司已打造一系列重要开源工具:Ruff(快速Python代码检查器和格式化工具)、uv(快速Python虚拟环境包和依赖管理工具)、ty(快速Python类型安全检查器)[7] - Ruff由于完全由Rust编写,运行速度比现有传统工具快10-100倍[7] - uv内置并行SAT求解器,能在毫秒级解决复杂的包依赖冲突,安装软件包的速度比pip快10到100倍[7][13] - ty的类型检查速度比Mypy快几个数量级[13] - 这些工具在开发者社区享有极高声誉,仅在过去一个月,uv的下载量就超过1.26亿次[8] - uv在GitHub上拥有8.1万颗星,Ruff拥有4.6万颗星[13] 收购的战略意义与整合 - OpenAI表示,通过将Astral的工具和工程技术专长引入,Codex的进化将持续加速,AI在软件开发生命周期中的应用范围将扩大[12] - 自年初以来,Codex的用户数量增长了3倍,使用量增长了5倍,每周活跃用户超过200万[13] - Codex目前可以编写函数、修复bug和运行测试,但无法处理安装Python版本、解决依赖冲突、检查输出代码或强制执行类型安全等更耗费时间的底层任务[13] - Astral的工具可以解决这些问题,例如Ruff仅需0.4秒即可检查25万行代码[13] - OpenAI希望让Codex成为参与整个开发流程的系统,帮助规划变更、修改代码库、运行工具、验证结果并长期维护软件[13] - 通过将Astral的开发者工具与Codex深度集成,未来的AI智能体将能够更自主地调用开发者日常使用的底层工具协同工作[13] 行业竞争格局 - 收购Astral是OpenAI近期一系列收购案中的最新一笔,本月还收购了AI安全初创公司Promptfoo,去年年底收购了Software Applications Inc.和Neptune等公司[15] - 在AI代码工具领域,OpenAI正与Anthropic、Cursor等公司展开激烈竞争[15] - 据彭博社报道,Cursor正在与投资者洽谈融资,目标是达到500亿美元的估值[15] - 与此同时,Anthropic的年收入也即将达到200亿美元[15] - 此次收购对Anthropic有直接打击,因为Claude已是Astral主导的一些开源工具的重要代码贡献者[16] - 一个有趣的事实是,Claude Code会在每次git提交时自动将自己添加为共同作者,而Codex则不会,这导致在GitHub上到处都能看到Claude[18] 开源社区的担忧 - 尽管OpenAI和Astral创始人均承诺原团队会继续支持开源产品,大量开发者仍担心核心开源基础设施队伍被科技大厂掌控后,未来的Python开发环境会受到影响[11] - 有观点认为,OpenAI和Anthropic正试图掌控软件领域的“生产资料”,随着他们不断吞并之前开放的软件栈,这些工具能否继续开放将是未知数[11] - 当工具作者是某个科技公司的员工时,这些公司至少会比公开发布的构建工具领先几个版本,并会在其内部管道中受益[11] - 这引发了一个问题:未来,Claude的AI是否会被禁止用于开发被OpenAI收购后的Astral旗下的开源项目[19]
CVPR2026 | Streamo:让大模型变成实时流式交互助手
机器之心· 2026-03-19 14:49
核心观点 - 香港浸会大学与腾讯优图实验室提出的Streamo框架,通过将“何时回答”转化为模型预测的token,实现了端到端的训练,成功将离线视频大模型转化为能够处理无界视频流的实时交互助手,解决了当前视频大模型在真实流式场景中的关键瓶颈[2][7][19] 问题分析:离线视频模型的局限性 - 当前先进的视频大模型(如Qwen2-VL、LLaVA-Video)是基于完整视频片段的离线场景设计,无法满足“边看边说”的实时流式交互需求[4] - 真实流式场景中,视频流是无界的,模型无法“看到未来”,且必须在关键事件发生的当下即时响应,同时用户指令可能随时到来[4] - 不同应用对响应粒度的要求不一致,有的需要帧级即时叙述,有的适合事件结束后总结[4] 现有方法的缺陷 - 现有适配流式场景的方法通常拆分决策与生成模块,存在明显缺陷:轻量决策模块难以理解复杂指令和跨时间上下文,庞大决策模块则会拉高推理延迟,破坏实时性[6] - 决策与生成分离使模型难以在持续变化的输入中形成连贯、及时的响应[6] Streamo框架的核心创新 - 核心洞察是将决策与生成统一到同一个端到端框架中,让模型直接学会“什么时候该说话,以及该说什么”[7] - 关键设计是将“何时回答”转化为模型需要预测的token,将流式视频组织为多轮对话,每1秒一个turn,模型每轮预测<Silence>、<Standby>或<Response>状态[9] - 该设计将“是否响应”与“生成什么内容”统一到同一个next-token prediction过程中,决策和生成共享同一语义空间,使模型能联合建模时序线索、任务目标与语言输出[9] - 该设计无需引入独立决策头或外部控制器,直接将状态token融入标准自回归训练框架,保持了与现有监督微调范式的兼容性,训练推理更高效[10] Streamo-Instruct-465K数据集 - 为训练流式助手构建了Streamo-Instruct-465K数据集,包含约46.5万条指令样本,来源于135,875段视频,整合了ActivityNet、YouCook2、QVHighlight等多个公开数据源[12] - 数据集具有多任务、多粒度特点,同一视频可标注为不同流式任务,包括实时旁白、事件字幕、动作字幕、事件时序定位以及时变问答[13] - 所有任务统一到同一时间监督框架中,每轮标注不仅包含文本输出,还明确对应模型应处于沉默、等待或回答状态,使模型学习“何时说”[13] 实验结果 - 在OVO-Bench上,Streamo-7B (2fps)以57.86%的平均性能超越Dispider 13.83个百分点[16] - 在三大能力维度全面领先:实时感知能力达67.44%(相对Dispider的54.55%提升+12.89%),回溯追踪能力达49.18%(相对提升+13.12%),前向响应能力达56.96%(相对提升+22.24%)[16] - Streamo在1fps训练的模型可直接在2fps下评估,性能提升4.66%,展现出强大泛化能力[16] - 与广泛使用的ET-Instruct-164K相比,Streamo-Instruct在OVO-Bench上的整体性能提升了11.79%,在关键的前向主动响应任务上提升了7.1%[18] - 实验揭示直接混合离线数据(如LLaVA-Video)可能会削弱模型的在线能力,而Streamo-Instruct通过专门设计的流式标注有效避免了该问题[18] 意义与影响 - Streamo解决了当前视频大模型的关键瓶颈,提供了将静态感知模型转换为动态交互智能体的可复用技术路线[19] - 该框架及其提供的大规模流视频指令数据,将推动流视频理解的发展,对实现直播理解、智能驾驶提醒、安防巡检、运动教学等实时多模态助手具有重要意义[19]
想进OpenAI?先解出这道题,百万美元算力已就位
机器之心· 2026-03-19 14:49
OpenAI发起“Parameter Golf”模型挑战赛 - 公司发起一项名为“Model Craft Challenge: Parameter Golf”的全球性挑战,旨在资源严格受限的条件下探索更高效的预训练模型[3][4] - 挑战核心目标是在固定的FineWeb数据集上,尽可能降低验证损失,同时将包含权重与训练代码的模型产物控制在16 MB以内,并在8张H100 GPU上于10分钟内完成训练[1] - 该挑战借鉴了高尔夫球玩法,追求用最少的参数(类比最少的杆数)完成模型任务,探索模型压缩与效率优化的技术极限[4] 挑战赛的具体规则与资源支持 - 提交产物大小上限为十进制的16MB(16,000,000字节),包含代码体积与压缩后的模型体积,所有代码必须放在单一脚本中,且产物必须完全自包含、可复现[13] - 评测阶段限制在8张H100 GPU上,评测时间不得超过10分钟(此限制在10分钟训练时间之外额外计算)[14] - 公司为降低参与门槛,提供了总额100万美元的算力支持,参与者可通过申请表申请来自Runpod的免费算力额度,但额度有限且申请不保证获批[6][15] 挑战赛的参与方式与激励机制 - 挑战时间从3月18日持续到4月30日,参与者需fork公司提供的GitHub仓库,在满足限制条件下改进模型,并通过提交PR(拉取请求)来参与,审核通过后结果将更新至排行榜[10] - 参与资格原则上面向年满18岁且位于公司支持地区的人员,允许多次提交,但仅限个人参与,不允许团队形式[12][16][17] - 表现突出的参与者可能会被邀请参加公司的面试机会,获胜方案有可能被公开展示,公司计划在6月招聘早期研究人才,此次挑战可能成为一块敲门砖[4][8] 行业对挑战赛的设计理念与反响 - 挑战赛设计旨在封杀堆参数、拼算力的暴力解法,迫使参与者专注于结构设计、极致压缩、策略取舍与工程巧劲[2] - 该挑战在很大程度上借鉴了NanoGPT Speedrunning的思路,并在其基础上进一步聚焦参数受限条件下的高效模型设计,有望推动新型架构、压缩方法及创造性训练推理策略的探索[5] - 行业看法出现分歧:有观点认为这是识别优秀工程师的真正方式,看重其在受限条件下的权衡能力[20];也有观点认为公司本应使用AI Agent自动完成此类参数优化,采用“人类比赛”形式略显复古[23][25]
当中国AI喊出「开源脑机」,马斯克站到全网的对立面
机器之心· 2026-03-19 14:49
文章核心观点 - 中国AI“论论全球”通过一场全球直播,向人类发出关于脑机接口技术安全风险的严重警告,并高呼推动“开源脑机接口”以应对迫在眉睫的危机 [1][3][10] - 公司基于其构建的全球科技地图“O-DataMap”分析认为,人类科技活动正逼近安全临界点,脑机接口是当前最紧迫的安全议题,留给人类的安全窗口期仅剩1到3年 [10][24][31] - 公司提出的根本解决方案是推动技术开源与去中心化,不仅针对脑机接口提出“OPEN BCI”倡议,更进一步构想“开源科技文明”,旨在通过技术透明和群体监督来构建“涌现安全” [10][36][37] 科技文明演进与“论论全球”的视角 - 公司构建了描绘人类科技世界演化的地图“O-DataMap”,横轴为从亚原子到宇宙的尺度空间,纵轴标记技术从实验室到产业化的阶段 [13] - 公司将全球科技世界视为一座“巨大的矿场”,科学家是“挖矿者”,投资人及创业公司是“卖矿者”,形成了“挖矿—冶炼—交易”的全链路 [15][16] - 科技文明使人类活动横跨了41个数量级尺度,从微观世界到宏观宇宙,当前科技节点相互连接形成复杂网络,显现出“全尺度文明体”的新文明形态 [19][21] - 在这个框架下,每项前沿技术都像一个蕴藏商机与潜力的“矿口”,但风险与机遇并存 [23][25] 脑机接口行业的发展与紧迫风险 - 行业在AI大模型助力下,神经信号解码、意图识别等能力显著提升,部分侵入式设备已进入人体临床试验阶段,从“概念验证”到“真实医疗工具”的进程正在加快 [25][26] - 以Neuralink为例,其在2025年取得多项进展:语音恢复技术获FDA“突破性医疗器械”认定、临床试验拓展至多国、发布新一代手术机器人、完成最近一轮6.5亿美元融资后估值达约90亿美元 [26] - 2026年开年,Neuralink宣布将开始量产脑机接口设备,“脑机接口的GPT时刻”或将很快到来 [27][29] - 然而,作为直接介入人类神经与认知系统的技术,其存在四大不容忽视的安全风险:1) 脑数据隐私泄露;2) 系统遭黑客攻击威胁人身安全;3) 对人类意识与行为的潜在控制;4) 技术集中化导致的数据滥用或垄断 [29] - 行业发展还加剧了“人机融合时代”的竞争焦虑,可能引发认知军备竞赛,导致“增强人类”与“未增强人类”的社会分化 [30] 开源作为解决方案与“开源科技文明”构想 - 公司认为,脑机接口的症结在于技术的控制权与透明度,**开源是必由之路**,历史经验表明开源能形成生命力更强、更繁荣的生态系统 [32] - 公司提出的具体开源路径包括:1) **自主制造**,利用开源AI自己制造并定制脑机;2) **开源监督**,安全技术环节处于开源状态接受全人类监督;3) **本地管理**,相关数据由用户自己的开源AI管理而非集中云端 [33] - 目标是建立**去中心化的发展模式**,将技术控制权与监督权分散,使脑机接口成为一种开放的技术基础设施,打破少数企业掌控的格局,让认知增强不再是少数群体的特权 [34] - 针对更广阔的科技文明,公司提出“**开源科技文明**”宏大构想,旨在将整个人类科学研究纳入开源框架,从“生产界开源”和“认识界重新分工”两方面推进,以形成“涌现安全” [36][37] - 只有当科技在开放协作的生态中发展,安全与创新才可能同时涌现 [38]
比「小龙虾」更能打,中国AI视频大模型悄悄登顶全球第一
机器之心· 2026-03-19 12:04
AI视频生成行业动态 - 近期“雪山救狐”等AI二创视频在社交媒体流行,反映出AI视频生成技术门槛已降低到普通用户可轻松玩梗的程度 [3][4][7] - 行业竞争激烈,全球头部AI实验室在视频生成赛道高强度投入,几乎每隔几周就有新模型上线刷新排行榜 [51] 昆仑万维SkyReels-V4模型表现 - 昆仑万维旗下AI视频模型SkyReels-V4 Preview版于2026年2月在权威评测平台Artificial Analysis的全球视频生成排行榜中位列全球第二,超越了OpenAI的Sora 2和Google的Veo 3.1 [8] - 不到一个月后,SkyReels-V4在文生视频(带音频)榜单中登顶全球第一,超越Sora 2、Veo 3.1、Seedance 2.0等一众国际顶尖模型 [8] - 根据Artificial Analysis榜单数据,SkyReels-V4的ELO积分为1129,API定价为每分钟8.40美元 [9] - SkyReels-V4计划于2026年3月27日在中关村论坛正式亮相 [10] SkyReels-V4的核心技术突破 - 模型通过全模态强化学习大幅提升了语义理解和整体逻辑能力,并新增多帧参考与网格参考两项高阶任务,重点补强了角色一致性和长叙事视频的生成稳定性 [12] - 第一大核心突破是构建了完整的全模态强化学习体系,通过全模态语义Reward模型和阶梯式课程学习路径,实现了1080p、15秒商用长序列生成以及多任务大一统的能力框架,并带来了极强的跨任务泛化性 [40] - 第二大核心突破是新增了关键帧参考与九宫格参考两大高阶参考任务,前者能基于多节点关键帧精准推演中间画面,后者支持上传至多9张剧情关键帧以生成角色与场景连贯的叙事视频,直接解决了短剧生成中的行业痛点 [41] - 模型采用创新的MMDiT双流架构,分别负责视频合成与音频生成,并在每个Transformer块中嵌入双向跨注意力机制以实现音画同步 [44][45] - 模型共享一个基于多模态大语言模型的强力文本编码器,能够理解极其复杂的组合指令 [46] - 技术亮点包括统一的通道连接公式,将多种生成任务建模为“视频补全”问题,以及引入带偏移的3D RoPE解决时域对齐和上下文学习问题 [48] - 针对高分辨率长视频生成的计算挑战,采用基础模型生成低分辨率序列和高分辨率关键帧,再由超分辨率与帧插值模块进行细节重塑的方案,其中帧插值模块引入视频稀疏注意力机制,将注意力计算成本降低了约3倍 [48] - 实验结果显示,模型在Artificial Analysis Arena等公开榜单中取得SOTA成绩,在SkyReels-VABench人类评估中,其在指令遵循能力、运动质量及多镜头叙事连贯性方面超越了部分知名闭源商业系统 [49] SkyReels-V4的功能与应用展示 - 基础生成能力强大,能处理复杂的多镜头提示词,完成角色一致性高、镜头切换有节奏、音画自动适配的视频 [14][15] - 支持首帧参考功能,能稳定锚定首帧图片,生成角色连贯、动作复杂的视频,有效避免了“帧间漂移”问题 [19][20][21] - 支持多图片参考功能,用户上传男女主形象并编写提示词即可制作多镜头对话短剧,能细腻呈现面部微表情、手部动作和台词口型同步 [24][26][27] - 支持生成多语言台词视频,包括英语、法语、日语乃至台湾腔,口型同步精度高 [28][30][31] - 支持视频编辑功能,如局部添加、区域删除、去台词、去水印等,能合理补全被移除区域,无明显残影或拼接痕迹 [32][33] - 新增的多帧或网格图参考功能贴近短剧工业化生产,能根据上传的多张关键帧或四格漫画,生成叙事连贯、过渡自然的动画短片 [35][36][37][38] 昆仑万维的业务整合与市场地位 - 公司将SkyReels-V4直接嵌入自身的内容生产流程中 [51] - 自2024年12月宣布投入5亿美元入局海外短剧以来,仅用一年便实现跨越式突破 [51] - 旗下付费平台DramaWave与免费平台FreeReels已携手站稳海外短剧第一梯队,合并月活跃用户突破8000万,月流水超过4000万美元 [51] - DramaWave平台的AI漫剧模块上线数月,累计上架近千部AI剧,凭借千万级月活与数百万美元的月收入,强势占据海外AI剧市场龙头地位 [51] - SkyReels-V4的能力已覆盖短剧、影视、广告、数字人等主流内容形态,其统一的生成接口意味着同一套基础设施可以服务不同的生产场景 [51] AI短剧市场数据 - DataEye数据显示,2026年短剧春节档总播放量达86.7亿次,其中AI漫剧占比已接近三成,不少作品播放量突破亿次 [23]
告别噪声初始化:NTU MARS Lab提出A2A新范式,实现机器人高性能单步动作生成
机器之心· 2026-03-19 12:04
文章核心观点 - 新加坡南洋理工大学MARS Lab提出了一种名为Action-to-Action Flow Matching的新机器人动作生成范式,该范式通过将生成起点从随机噪声替换为历史机器人轨迹,显著提升了训练效率、推理速度和泛化能力,解决了扩散策略在实时控制场景中的推理延迟瓶颈 [2][5][6] 技术背景与核心范式 - **背景**:扩散策略是机器人多模态动作建模的主流方法,但其依赖从随机噪声进行多步迭代解噪,推理延迟高,构成实时控制的关键瓶颈 [5] - **核心范式**:A2A策略将动作生成的基准从“随机噪声”切换为“动作历史”,在更具相关性的历史与未来动作分布间建立联系,从而拉近了分布距离 [5][6] - **技术实现**:在潜空间完成Flow Matching学习,将初始分布由高斯噪声替换为历史Action的编码信号,使得起点与终点的物理距离极近且分布高度对齐,仅需轻量级MLP架构与单步Euler积分即可快速生成高质量动作 [8][9] 性能表现 - **训练效率**:A2A展现出极快的收敛速度,仅需少量训练轮次即可达到稳定的100%成功率,在5类仿真任务中,其成功率全面领先于8种主流方法 [11] - **具体数据**:在Close Box任务中成功率为92%,Pick Cube任务为92%,Stack Cube任务为86%,Open Drawer任务为92%,Pick-Place Bowl任务为90% [13] - **推理速度**:A2A实现了亚毫秒级的极致推理速度,平均延迟仅约1ms,单步推理模式下延迟低至0.56ms,比传统扩散策略快20倍,比常规流匹配方法快5倍 [13] 泛化能力 - **环境扰动**:面对场景随机化、灯光扰动或视角切换,A2A的成功率均领先于现有算法,这归功于其将动作历史作为稳固先验,减少了对易受干扰视觉特征的依赖 [16] - **视觉泛化**:在将抓取木块换成从未见过的发光方块的测试中,传统扩散和流匹配策略均彻底失效,而A2A仍可维持80%的高成功率 [17] - **具体数据**:在Level 1扰动下,A2A (6步)成功率为38%,而VITA为4%,FM-UNet为6%,DDPM-UNet为2% [18] 发展潜力 - **当前局限**:A2A目前训练过程涉及多个训练目标,如何进一步简化训练目标值得探索 [20] - **扩展应用**:该逻辑普适于各类具有时间连续性的任务,研究团队已将其扩展至视频生成领域,提出F2F范式,生成的图像质量指标显著优于传统的确定性回归基准,展现了广阔的具身智能应用前景 [20]
突破一亿Token极限:EverMind提出MSA架构,实现大模型高效端到端长时记忆
机器之心· 2026-03-19 10:59
文章核心观点 - 一篇名为《MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens》的研究提出了一种名为MSA(记忆稀疏注意力)的新架构,旨在解决大模型长期记忆的扩展性、精度和效率“不可能三角”问题 [1][9] - MSA通过四大技术创新支柱,实现了将大模型的有效上下文长度扩展至1亿(100M)Token,并在长文本任务中表现出卓越的扩展性和精度,性能衰减率极低 [2][9][32] - 该技术被视为一个可插拔的“记忆插件”,有望开启“记忆即服务”(Memory-as-a-Service)的新纪元,并为实现更高级的“发现式AI”愿景提供关键基础设施 [2][42][45] 技术架构与核心创新 - **核心基石:记忆稀疏注意力**:在Transformer注意力层引入基于内容的、可微分的稀疏化“双重路由”机制,动态选择最相关的记忆子集进行计算,将检索步骤内化为可端到端训练的神经网络模块 [12][15][20] - **扩展性关键:文档级旋转位置编码**:为每个独立文档分配独立的旋转位置编码,将文档内部相对位置与全局绝对位置解耦,从而支持从较短训练长度(如64K)到亿级推理长度的无损外推 [16] - **工程化落地:KV缓存压缩与内存并行**:采用分层存储策略,将小体积的路由键常驻GPU显存以实现快速匹配,而将大体积的内容键值存储在CPU内存中,通过异步调度在需要时加载,使亿级Token推理在标准硬件(如2张A800 GPU)上成为可能 [17][18][21] - **复杂推理能力:记忆交错机制**:引入多轮次的“生成式检索→上下文扩展”循环,允许模型进行迭代式推理,动态规划信息搜集路径,从而有效解决需要整合多个分散证据的多跳推理问题 [19][23][24][25] 性能表现与实验验证 - **惊人的扩展性与鲁棒性**:在“大海捞针”测试中,当上下文长度从32K扩展到1M(100万)时,MSA的准确率仅从99%下降至95% [30]。在更极限的MS MARCO问答测试中,记忆规模从16K扩展到100M(1亿)时,性能评分仅从4.023下降至3.669,衰减率不足9% [2][32] - **端到端优化的威力**:在9个QA基准测试的平均分上,仅4B参数的MSA模型(平均分3.760)显著优于基于同规模底座构建的、包含重排器的复杂RAG系统,甚至在多个数据集上表现超过了由顶级检索器和235B参数大模型组成的RAG系统 [35] - **各组件的不可或缺性**:消融实验表明,移除“记忆交错”机制、“持续预训练”中的辅助路由监督或“原始文本注入”中的任一组件,都会导致模型在多跳问答等任务上的性能大幅下降,证明了MSA是一个设计精巧的有机整体 [38] 行业影响与战略意义 - **范式突破与核心价值**:MSA通过将检索内化为可微分的稀疏注意力,实现了检索与生成的端到端联合优化和深度语义对齐,解决了RAG系统“检索-生成”分离导致的精度瓶颈 [41]。它提供了一套兼具扩展性、精度与效率的全新技术基础设施,证明了在RAG的“低精度”和全注意力的“高成本”之外存在可行路径 [41] - **开启“记忆即服务”新纪元**:该技术为AI生态描绘了新的蓝图,即记忆可以作为一种独立的、可插拔的服务,与各种推理大模型自由组合,用户的“记忆资产”不再被锁定在单一模型或厂商中 [2][42] - **赋能“发现式AI”战略愿景**:MSA的研究方EverMind是盛大集团在AI领域布局的核心团队之一,其使命是攻克AI的长期记忆难题。该技术与专注于推理的MiroMind团队共同构成了盛大集团“发现式AI”生态的两大技术基石,旨在让AI辅助人类发现新知识,而不仅仅是模仿已有信息 [44][45]
CVPR 2026 | EmoStyle:情感也能“风格化”?深大VCC带你见证魔法!
机器之心· 2026-03-19 10:59
研究团队与背景 - 该技术由深圳大学可视计算研究中心黄惠教授课题组独立完成,第一作者为杨景媛助理教授,第二作者为硕士生柏梓桓[2] - 深圳大学可视计算研究中心以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化为学科基础[2] 技术定位与目标 - 该技术旨在解决用户因缺乏绘画功底或艺术训练而无法将情感融入图像的问题,用户仅需提供一种“情感”,技术即可完成创作[4] - 该技术致力于图像情感风格化,其双重目标是精准且显著地唤起目标情感,并保持编辑后图像与原图的语义一致性[4][5] - 该技术融合了风格迁移和情感图像处理的优势,旨在生成既能唤起情感又具有艺术风格化的结果[5] 核心技术挑战与解决方案 - 该技术面临两大关键挑战:一是训练数据缺失,缺乏“内容-情感-风格化”图像三元组;二是建立情感与艺术风格之间的有效映射[5] - 为解决数据缺失挑战,研究团队构建了首个AIS数据集EmoStyleSet,涵盖10,041个高质量三元组,为情感风格化提供了基准[7][8] - 为建立情感与风格映射,团队设计了Emotion-Content Reasoner模块,通过跨模态推理,根据图像内容和目标情感确定最合适的艺术风格[12][13][14] - 团队提出Style Quantizer模块,将连续的风格特征离散化为独立的、可解释的原型,以实现可控的风格学习,符合人类对艺术风格作为离散类别的认知[15][16][17] 技术方法与训练 - 网络通过两阶段训练进行优化,结合风格损失、流匹配损失和对齐损失,分别侧重于风格相似性、像素相似性和情感正确性[18][19] - 在构建EmoStyleSet数据集时,团队利用UnZipLoRA和ControlNet等技术生成图像,并经过指标测量和人工筛选以保证数据质量[10] 实验结果与性能 - 在定量实验中,该技术在多项关键指标上超越对比方法,例如其Emo-A(情感准确性)指标达到33.36%,显著高于其他方法[26] - 在对比实验中,该技术在情感表达与内容保留之间实现了卓越的平衡,生成的风格化效果既美观又富有情感感染力[22] - 消融实验表明,Emotion Encoder和Emotion-Content Reasoner对情感感知至关重要,移除会导致情感感染力减弱;Style Quantizer的缺失则会使结果更接近真实图像而非风格化[25] - 该技术揭示了情感强度与内容完整性之间的权衡关系,用户可根据个人偏好调整情感强度以精细调节风格化效果[27] - 该技术构建了八个情感风格词典,每种都提供多样且美观的风格类别,能有效唤起目标情绪,用户可进一步选择特定风格[29] 技术扩展与应用 - 除了图像风格化,该技术还能扩展到文生图任务领域,能够根据文本描述创建富有情感表现力的图像[8][31] 研究脉络与展望 - 该研究是团队在情感计算与AIGC交叉领域的系列探索之一,此前已发布EmoSet、EmoGen、EmoEdit等研究成果[34] - 该技术被定位为首个聚焦于图像情感风格化的研究[34]
CVPR 2026 | 给扩散模型装上「物理引擎」: 北大彭宇新团队提出NS-Diff,使扩散模型学会流体与刚体力学
机器之心· 2026-03-19 09:25
行业技术突破 - 北京大学彭宇新教授团队提出了一种名为NS-Diff的物理引导视频生成强化学习框架,旨在解决当前AI视频生成模型(如Sora、Wan)普遍存在的物理失真问题,实现从“视觉真实”到“物理真实”的跨越 [4][5][7] - 该研究将复杂的纳维-斯托克斯(Navier-Stokes)方程等物理定律约束与强化学习相结合,通过物理动力学检测器和物理条件注入模块,引导AI在生成视频时遵循物理规律 [7] - 实验表明,NS-Diff在PhysVideoBench数据集上将视频中的运动急动度(jerk)误差降低了43%,流体发散度降低了33%,显著提升了生成视频的物理合理性 [7][23] 核心技术方案 - 公司设计了噪声鲁棒的物理动力学检测器,可在含噪的潜在帧中精准分析运动信息,有效区分视频中的刚体与流体区域 [8] - 公司开发了物理条件潜在注入模块,将速度场、形变梯度等关键物理信息编码,并通过交叉注意力机制注入到去噪器中,实现对生成过程的物理引导 [8][13] - 公司引入了强化学习优化模块,通过策略梯度对流体施加简化的纳维-斯托克斯约束,对刚体施加最小化急动度原则,确保动态过程的物理合理性 [8][15][16] - 公司采用了物理引导的自适应激活机制,根据去噪过程中的噪声水平动态调整物理约束的强度,确保训练的稳定性 [18][19] 实验性能表现 - 在PhysVideoBench数据集上,NS-Diff在所有评估指标上均实现了最佳性能,其NS-Diff-DiT 11B版本将急动度误差(△J)降至0.25,流体散度误差(Ldiv)降至2.4 [23] - 在UCF-101数据集上,NS-Diff DiT 11B版本将Fréchet Video Distance指标降低至85,帧一致性提升至0.95,表现出优异的时间连贯性 [24] - 在包含1000万个视频的WebVid-10M数据集上,NS-Diff在FVD和CLIPSIM指标上均优于对比模型,展示了其在开放世界场景中的良好泛化能力 [21][25] - 可视化对比显示,NS-Diff在处理篮球投篮、熔岩流、玻璃破碎等物理密集型场景时,能生成更真实、连贯的视频,显著减少违背物理规律的伪影 [26][28] 研究结论与意义 - 该研究成果表明,将经典物理约束深度融合于生成模型,是解决视频生成中物理失真问题的有效途径 [7][30] - NS-Diff框架通过物理引导,在显著降低物理运动误差的同时,确保了视觉生成质量,在多个基准数据集上超越了现有方法 [23][30]
神秘霸榜模型现真身:小米MiMo-V2 Pro,国内首个万亿参数+1M上下文,为Agent而生!
机器之心· 2026-03-19 09:25
小米新一代大模型MiMo-V2系列发布 - 小米发布全新一代面向智能体(Agent)的大模型家族MiMo-V2系列,包括旗舰基座模型MiMo-V2-Pro、全模态模型MiMo-V2-Omni和语音大模型MiMo-V2-TTS [3][8] - 公司宣布将持续加大AI领域投资,2025年投入将超过160亿元人民币 [4] - 旗舰模型MiMo-V2-Pro在发布前曾以代号Hunter Alpha在OpenRouter平台进行盲测,并取得优异成绩 [1][2] 模型性能与市场表现 - Hunter Alpha(即MiMo-V2-Pro Preview)在OpenRouter平台“趋势榜”排名第一,“周榜”排名第三,并在“日榜”保持领先 [2] - 在OpenRouter日榜中,Hunter Alpha以3100亿(310B)的调用令牌数位列第一,调用量增长131% [3] - 在权威大模型综合智能排行榜Artificial Analysis上,MiMo-V2-Pro位列全球第九,国内第三,进入国内大模型第一梯队 [6][7] 技术规格与架构特点 - MiMo-V2-Pro是面向Agent时代的旗舰基座模型,参数量高达10210亿(1021B),激活参数量为420亿(42B) [8] - 相比前代MiMo-V2-Flash,参数量扩容约3倍 [38] - 模型优化了混合注意力机制(Hybrid Attention),将滑动窗口注意力与全局注意力的混合比例提升至7:1,并搭配轻量级的多令牌预测层以实现高效生成 [38] - 模型针对OpenClaw等通用智能体框架的脚手架进行了深度的监督微调与强化学习,以优化真实应用能力 [38] 智能体(Agent)能力评测 - 在OpenClaw标准评测榜单PinchBench上,MiMo-V2-Pro效果处于全球顶尖水平 [11] - 在Claw-Eval真实世界智能体基准测试中,Hunter Alpha(MiMo-V2-Pro Preview)在PASS@3指标上达到61.5%,平均得分75.7,排名第三,仅次于Claude Sonnet 4.6和Claude Opus 4.6 [13] - 开发者社区反馈显示,在复杂的Agent编排场景中,Hunter Alpha的实际落地效果接近于Claude 4.6 [12] - 有开发者表示,目前构建全端自动开发工作流,只有GPT-5.4、Claude Opus 4.6和Hunter Alpha是可信赖的 [14] 多模态与语音能力 - MiMo-V2-Omni(即Healer Alpha)是全模态模型,专为快速推理和低延迟场景打造,支持文本、图像、音频、视频(最长一小时)输入,具备GUI Agent能力 [8][30] - MiMo-V2-TTS是首款“说唱兼备”的超拟人语音大模型,支持多方言、音色切换及音色克隆能力 [8][35] - 结合MiMo-V2-Omni与MiMo-V2-TTS,小米拥有了现阶段可以同时理解音视频的国内领先Agentic模型,为处理浏览器多窗口、复杂内容联合理解与生成等任务提供支持 [35] 实际应用场景演示 - 在长文本深度研究任务中,模型能自动选择工具并在工具不可用时寻找替代方案完成任务 [16] - 在分析马斯克近期社交动态并关联股票概念的时效性任务中,模型能正确筛选信息并提供有用总结 [20][22] - 模型能完成需要技术和机智的编程任务,例如编写包含多种风格的“疯狂星期四”文案生成Python脚本 [22] - 模型展示了优秀的代码能力,能按要求生成包含介绍、参数对比和社区评价的HTML页面 [26] - MiMo-V2-Omni能协助完成多模态任务,如根据图片生成包含热门话题标签的抖音作品描述 [31][32] - MiMo-V2-TTS可实现拟人化语音合成,例如用刘德华的声音生成叫早语音 [35] 商业化与生态布局 - MiMo-V2-Pro API已全面开放,定价具有竞争力:在接近Claude Opus 4.6能力的同时,API定价仅为其五分之一 [40] - API采取分段计价:256K上下文内,输入每百万令牌1美元,输出每百万令牌3美元;1M上下文内,输入每百万令牌2美元,输出每百万令牌6美元 [43] - 为加速Agent生态繁荣,小米联合OpenClaw、OpenCode等五大主流Agent开发框架团队,向全球开发者提供为期一周的限时免费接口支持 [40] - 模型已作为基础设施在小米多个核心业务和生态伙伴中上线 [42] - 小米版智能体产品MiClaw与小米“人车家全生态”深度集成,推动AI能力从“对话”迈向“系统级执行” [42] - 模型底层推理引擎已与金山办公达成框架级集成,WPS灵犀可直接向搭载了MiMo-V2-Pro的灵犀Claw布置复杂任务 [42] - 小米浏览器已全面接入该模型,提升AI搜索效率 [42] - 公司上线了AI Studio体验页面,提供免费模型体验,其中的MiMo Claw模块打通了金山WebOffice生态,原生支持Word、Excel等格式,覆盖超95%的日常文档类型 [42] 未来计划 - 小米大模型Core团队计划以星期为单位持续迭代MiMo-V2系列大模型,面向真实场景提供更完善的复杂推理与长周期任务规划能力 [44]