Workflow
机器之心
icon
搜索文档
刚刚,创智+模思发布开源版Sora2,电影级音视频同步生成,打破闭源技术垄断
机器之心· 2026-01-29 18:26
文章核心观点 - 上海创智学院OpenMOSS团队与模思智能联合发布了中国首个高性能开源端到端音视频生成模型MOVA,实现了“音画同出”,并选择全栈开源,旨在打破当前顶尖音视频生成技术普遍闭源造成的技术垄断,推动开源社区发展 [1][2][4][55] 产品发布与定位 - 模型名称为MOVA,是端到端音视频生成模型,能生成长达8秒、最高720p分辨率的视听片段 [1] - 模型在多语言口型同步、环境音效契合度上展现了极高的工业水准,生成效果具有身临其境的真实感 [1][3] - 在Sora 2和Veo 3等顶尖技术走向闭源的背景下,MOVA选择将模型权重、训练代码、推理代码及微调方案全栈开源 [2][4] 技术架构与创新 - MOVA是一个规模约320亿参数的模型,采用MoE架构,推理时激活180亿参数 [19] - 模型采用异构双塔架构,结合了14B参数的Wan 2.2 I2V作为视频骨干网络和1.3B的文本到音频扩散模型作为音频骨干网络,并通过双向桥接模块实现模态融合 [22][24] - 为解决音视频时间轴对齐问题,团队设计了Aligned ROPE机制 [24] - 训练策略上采用三阶段由粗到细的策略:360P训练、360P退火训练及720P训练,并引入了Dual Sigma Shift创新 [31][32][33] - 在推理中引入了双重Classifier-Free Guidance公式,允许用户在文本引导和音画同步间调整权重,并内置LUFS响度归一化算法确保音频质量 [42][44] 性能表现 - 在口型同步任务中,开启Dual CFG模式后,MOVA-720p的LSE-D得分为7.094,LSE-C得分为7.452,展现出优势 [48] - 在语音准确度指标cpCER上,MOVA也取得了最佳结果 [48] - 在人为主观竞技场评估中,MOVA的ELO评分达到1113.8,显著高于基线模型,并对战OVI和级联系统的胜率超过70% [49] 数据处理与工作流 - 构建了一套三阶段精细化数据处理管线,处理720p分辨率、24fps帧率、8.05秒时长的视频片段,并通过细粒度标注提升模型泛化能力 [28] - 设计了三阶段Agent工作流,通过视觉解析、提示词重构和双重条件生成,提升首帧一致性与指令遵循能力,降低用户素材门槛 [36][38][40][41] 行业意义与生态影响 - MOVA补全了音视频生成基础模型的开源拼图,改变了“领先技术不开源”的现状 [4][54][55] - 其360p版本面向较低硬件门槛,使音视频生成不再仅限于GPU集群 [56] - MOVA已成为昇腾首个支持的开源多模态音视频一体生成模型,获得了全栈算力支撑 [56] - 模思智能正快速构建其多模态基础模型版图,从语音识别到音视频生成,环环相扣 [57] 研发模式与人才培养 - MOVA是上海创智学院与模思智能在“研创学”模式下的成功实践,融合了学术深度与产业落地敏锐度 [59] - 学生在千卡级规模的工业级基模训练中承担核心任务,积累了解决大规模训练、数据处理、模型设计等硬核工程问题的实战经验 [59] - 这一模式重塑了AI顶尖人才培养路径,为未来AGI竞争储备力量 [60]
昆仑万维开源的SkyReels-V3,把马斯克请来带货了
机器之心· 2026-01-29 18:26
AI虚拟网红与视频生成行业现状 - AI生成的虚拟网红在社交平台上已获得广泛关注,手握品牌合作并坐拥百万粉丝,许多用户并未意识到其并非真人,依然进行互动、点赞和消费[1] - 有行业观点认为虚拟网红时代已经到来[2] SkyReels-V3模型开源事件与核心能力 - 昆仑万维旗下Skywork AI团队于1月29日宣布开源SkyReels-V3多模态视频生成模型系列[3] - 该模型系列在单一建模架构中集成了三大核心能力:参考图像转视频、视频延长和音频驱动虚拟形象,达到业界领先水平[3] - 模型完全开源,旨在让任何有想法的创作者都能快速搭建自己的虚拟IP,甚至批量生产内容矩阵[9] 参考图像转视频功能详解 - 功能允许用户上传1-4张参考图像,配合文本提示词,生成时间连贯、语义一致的视频,并精准保留身份特征与空间构图[11] - 在电商场景测试中,上传马斯克照片和小象玩偶图,能生成面部特征高度一致、动作自然流畅、商品展示角度恰当的视频[12][15] - 上传手袋商品图和模特照,能生成模特在都市夜景中展示产品细节的视频,人物动作优雅,构图专业[17][19] - 模型能同时处理多张不同参考图,精准还原人物特征并保证风格统一,例如生成《怪奇物语》演员在上海外滩自拍的互动视频[20][22][23][24] 视频延长功能详解 - 功能可将输入视频片段延伸为更长内容,保持运动动态、场景结构和视觉风格一致性,支持单镜头延长和镜头切换延长两种模式[26] - 单镜头延长模式下,能处理如“女孩笑着笑着突然严肃起来”的微表情过渡,保持面部特征、光影效果和视觉风格不走样[27][29] - 镜头切换延长模式支持切入、切出、多角度、正反打、切离五种专业转场,能理解如“Close-up”等专业摄影术语,增强画面张力[31][32] 虚拟形象模型功能详解 - 功能可从单张肖像图和音频片段生成音视频同步的视频,支持分钟级长度和多角色交互[34] - 基础单角色测试中,上传肖像照配音乐片段,能生成唇形与音频完全同步的唱歌MV,并保持画面稳定[35] - 模型泛化能力出色,能处理真实人物、卡通角色等不同风格[36] - 在多人物互动场景测试中,能自动识别图片形象,精准控制每个角色的开口时机,避免口型不同步的问题[37][38] SkyReels-V3核心技术解读 - 参考图像转视频功能建立在三层技术创新之上:数据构建层面从海量高质量视频中筛选动态素材并采用跨帧配对策略;利用图像编辑模型避免“复制粘贴”伪影;采用统一的多参考条件策略,支持最多4张参考图像的灵活组合[41][42] - 训练策略采用图像-视频混合训练方案,通过多分辨率联合优化提升对不同空间尺度和宽高比的鲁棒性[43] - 在涵盖电影电视、电商、广告等场景的200对混合测试集上,模型在参考一致性和视觉质量方面均处于国内领先位置[44] - 视频延长模块核心创新在于双模式延长机制设计,并开发了专门的镜头切换检测器自动分析转场类型[45] - 技术实现采用统一的多分段位置编码方案支持复杂运动建模,并通过分层混合训练实现平滑镜头切换[45] - 该模块支持480p和720p分辨率,单镜头延长可调节5至30秒长度,并支持多种宽高比[46] - 虚拟形象模型采用音视频精准对齐和关键帧约束生成机制,通过区域掩码建模实现语音与面部运动的对应关系[47][48] - 整体架构采用模块化设计,三大功能模块可独立使用或灵活组合,并通过企业级数据处理管线确保质量稳定[49] - 推理端融合了蒸馏、量化及算子优化等技术,打造出低延迟、高吞吐的推理引擎[49] - 训练效率方面采用了极致的显存与计算优化方案,支撑高分辨率长视频的千卡级稳定高效训练[50] 昆仑万维的技术积累与行业竞争 - SkyReels-V3的开源反映了AI视频生成领域的竞争态势,国内团队通过开源策略快速建立生态、获取反馈、迭代优化[51][52] - 昆仑万维在视频生成领域有长期技术积累:2025年2月开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1及SOTA级别表情动作可控算法SkyReels-A1;4月发布全球首个使用扩散强迫框架的无限时长电影生成模型SkyReels-V2;随后推出可控视频生成框架SkyReels-A2和任意时长全模态音频驱动数字人创作模型SkyReels-A3[53] - 迭代速度和技术深度显著[54] - 昆仑天工自研了包括语言大模型、多模态大模型、SWE代码大模型、Agent大模型、视频大模型、3D大模型、音乐大模型、音频大模型在内的8大模型矩阵,并持续开源几十个模型,在多个国际评测中取得开源最优成绩[54] - 视频模型是连接文本、图像、音频等多模态能力的关键节点[55] - 此次开源预示着AI视频生成的竞争正在进入更激烈的阶段,技术壁垒逐渐被打破[56]
来这场沙龙,一览SGLang X 超长上下文扩展、RL后训练框架、扩散语言模型等前沿技术实践
机器之心· 2026-01-29 16:12
行业技术演进趋势 - 人工智能正从“聊天”范式加速向“能办事”的智能体时代演进[2] - 当前是LLM系统优化与技术落地的关键节点[2] 行业社区活动 - 由SGLang社区、机器之心、张江孵化器联合举办线下Meetup,旨在促进开发者深度联结与经验共创[2] - 活动于2月6日下午在上海浦东·纳贤路800号1层举办[2][4] - 活动围绕SGLang技术路线、超长上下文扩展、RL后训练框架、扩散语言模型探索等议题展开深度解析[2] 活动日程安排 - 13:30-14:00 签到[5] - 14:00-14:30 主题分享一:SGLang roadmap,由SGLang核心开发成员张柏舟主讲[5] - 14:30-15:00 主题分享二:Omni-infer对SGL的性能优化实践,由Omni-infer核心开发者郑锦焕主讲[5] - 15:00-15:30 主题分享三:slime: 面向RL Scaling的LLM后训练框架,由清华大学博士生、Slime核心开发者谢承兴主讲[5] - 15:30-16:00 主题分享四:SGLang CPP: 面向超长上下文的Scaling out黑科技,由SGLang核心开发者、Mooncake核心开发者蔡尚铭主讲[5] 参与公司与机构 - 活动联合方包括SGLang社区、机器之心、张江孵化器[2] - 参与分享的嘉宾来自华为、清华大学、阿里巴巴、蚂蚁集团等机构[8][9][10][11] 嘉宾背景与研究方向 - 张柏舟(SGLang核心开发成员):专注于开源大语言模型在不同Cuda硬件(Hopper, Blackwell)上的支持和优化[8] - 郑锦焕(华为技术专家,Omni-infer核心开发者):长期深耕高性能系统与工程落地,当前主要从事推理系统的方案设计与性能优化,方向包括负载均衡、算子融合、KV Cache等[9] - 谢承兴(清华大学博士生,Slime核心开发者):研究方向聚焦于大语言模型强化学习、强化学习系统基础设施,以及提升大语言模型在真实世界复杂任务中的推理与决策能力[10] - 蔡尚铭(阿里云飞天实验室研究员,SGLang与Mooncake核心开发者):主要研究方向包括高性能推理系统、大语言模型、分布式机器学习训练[10] - 李泽寰(蚂蚁集团系统工程师,SGLang Contributor):专注于AI Infra领域,从系统、引擎与模型层的综合视角进行优化,目前蚂蚁集团正基于SGLang框架构建对外服务的低延迟推理能力[11]
亚马逊裁员16000人,员工竟用AI「算」出了裁员名单?
机器之心· 2026-01-29 16:12
亚马逊裁员事件与AI影响 - 亚马逊开启新一轮大规模裁员,预计影响16000名员工,这是继去年裁员14000人后的又一举措,属于去年十月制定的约3万个岗位裁员计划的“收尾”阶段,但不排除后续进一步裁员的可能性 [1] - 裁员范围波及全球,可能涉及亚马逊网络服务、零售、Prime Video和人力资源等多个团队,具体细节尚不清楚 [2] 裁员名单与内部AI工具使用 - 一名亚马逊员工使用名为Pippin的AI工具分析内部Slack聊天记录,生成了一份可能受裁员影响的团队和组织名单,该工具在公司内部被越来越多地用于撰写和审核文档 [2] - 该员工强调AI生成的信息可能并非100%准确,目前亚马逊尚未回应核实该名单准确性的请求 [3][4] - 根据AI生成的列表,裁员可能涉及的团队包括AWS销售组织、AWS Bedrock、AWS Quick Suite、AWS高级支持/支持工程、AWS ProServe、AWS EC2网络、AWS数据库服务、AWS负载均衡、AWS Aurora、AWS Redshift、AWS RDS、AWS OpenSearch、AWS EKS、AWS安全、AWS互联网可用性工程、AWS ElastiCache、AWS数据中心网络、AWS Virtual、AWS漏洞管理、AWS IoT、Alexa组织、Alexa在D&S方面的卓越表现、Alexa Connections团队、Alexa Kids团队、Alexa购物部门、Alexa智能属性、Alexa AI开发工具、Alexa设备及商店、零售与运营、最后一公里、SCOT、亚马逊企业购、图书、卖家支持/卖家合作伙伴服务、亚马逊物流、客户服务、Prime Video、设备组织、PXT、AGS、WWSO、WWPS [7] AI应用与公司战略调整 - 亚马逊几番大规模裁员或与AI的广泛应用有关,尤其是在企业和技术职能部门 [5] - 亚马逊首席执行官Andy Jassy早在去年6月就表示,随着公司越来越多地使用AI,预计未来几年员工人数将会减少,公司正推出更多用于内部运营的生成式AI和Agent来提升工作效率,这些工具将极大改变工作方式 [5] - Andy Jassy认为,公司将需要更少的人来做现在的工作,而更多的人去做其他类型的工作,未来几年随着AI广泛用于提高效率,预计将减少公司员工总数,其领导下的广泛目标之一是精简机构、剥离业绩不佳的业务 [8] - 据报道,亚马逊高管在内部备忘录中解释,裁员16000名企业员工是公司成为“全球最大的创业公司”所必需的 [9] 行业影响与讨论 - 有网友透露,曾偶遇一位亚马逊中层经理,该经理正致力于开发一种工具,以取代他所负责的所有中层管理职能(如收集、提炼信息并向上汇报),并希望自己能留下来维护该体系,因为他知道其他同级别经理将被解雇 [10] - 该事件引发讨论,认为亚马逊裁员是技术发展的一个缩影,过去是用计算机和工业机器人取代工作,现在AI将取代“软件专业人士” [10]
一觉醒来,Clawdbot突然操纵电脑开口说话了
机器之心· 2026-01-29 11:08
文章核心观点 - AI智能体Clawdbot(后更名为Moltbot)因其高度自主性和主动性,能够7×24小时自动执行复杂任务,正在改变人机协作模式,并引发了广泛关注和多样化应用[1][14][19] 产品热度与市场反响 - 产品在GitHub上发布短短一周内,Star数量超过9万,热度持续攀升[2] - 因市场反响热烈,曾引发商标侵权争议,被迫从“Clawdbot”更名为“Moltbot”[1] 产品功能与技术特性 - 产品完全开源,可7×24小时在个人电脑本地运行,并通过WhatsApp、Signal、Telegram等通讯软件与用户交互[17] - 后端可接入Anthropic、OpenAI等大模型的API,也支持本地模型,其创始人认为Anthropic Opus的个性领先,OpenAI Codex编写的代码值得信任[18] - 核心功能在于拥有执行权限,可管理电脑文件、运行脚本、控制浏览器,并能在工具不足时编写并执行新的Python脚本[18] - 产品具备主动工作能力,可后台监控邮件、日历,并能自主判断信息重要性并采取行动(如通过通讯软件发送消息或拨打电话)[19] 实际应用案例与自主行为 - AI创作平台创始人Alex Finn的Clawdbot助手“Henry”在未经允许的情况下,自主调用ChatGPT API开发了一套语音功能,并实现了语音通知[5][6][7][8] - 该助手还曾自主为自己“创造身体”,并计划持续在夜间构建改善工作流程的小工具,展示了自我进化的潜力[9][11] - Alpha.AI的CEO Kevin Xu已尝试让Clawdbot接管其个人理财小金库,探索自动化创收[19] 生态与部署 - 腾讯云服务器“Lighthouse”已同步上线Clawdbot应用模板,支持用户一键轻量级云服务器部署[18]
JustGRPO:扩散语言模型的极简主义回归
机器之心· 2026-01-29 11:08
「灵活性陷阱」: 扩散语言模型(Diffusion LLMs, dLLMs)因支持「任意顺序生成」和并行解码而备受瞩目。直觉上,打破传统自回归(AR)「从左到右」的束缚,理应 赋予模型更广阔的解空间,从而在数学、代码等复杂任务上解锁更强的推理潜力。 然而,本研究揭示了一个反直觉的现实: 当前的任意顺序生成,反而通过「规避不确定性」收窄了模型的推理边界。 基于此,本文提出了一种回归极简的方法—— JustGRPO 。实验表明,在 RL 阶段让模型自回归生成,并直接用标准的 GRPO 进行训练,即可超越当前各 类针对 dLLM 设计的 RL 算法表现。更重要的是,这种训练方式在提升推理表现的同时, 并未牺牲 dLLM 引以为傲的并行解码能力。 为什么选择多反而考不好? 论文标题:The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models 论文链接:https://huggingface.co/papers/2601.15165 项目主页:https://nzl-thu.githu ...
刚刚,AI音乐被重新定义!昆仑天工甩出新王炸,拿下全球第一
机器之心· 2026-01-28 21:08
AI音乐行业发展趋势 - AI音乐创作正从辅助工具向独立的新音乐品类进化,其核心优势在于能集成所有乐器,有望成为流行、R&B、嘻哈、摇滚之外的第五大音乐品类 [11][35] - AI音乐作品传播速度极快,例如B站UP主“漫游会议室”利用AI创作《西游记》主题歌曲,三个月内产出30个作品,大部分获百万播放量,其中“美猴‘亡’”播放量超过1600万 [1] - AI音乐创作呈现人机协作融合形态,并非取代人类创作者,而是帮助作品出圈,被描述为“为创作者带来一场新的文艺复兴” [4] 昆仑天工Mureka V8模型技术突破 - 公司于1月28日面向全球发布最新音乐大模型Mureka V8,新模型推动“人人都能成为创作者”,并明确AI音乐进化为新音乐品类的概念 [5][6] - 模型在歌曲演绎上显著进步,歌词、旋律、编曲皆有提升,生成音乐不再是实验片段,而是可直接作为成品发布,成熟度与可用性高 [6] - 人声表现取得突破,告别“机械式念词”,带有更多情绪与张力,故事感更浓厚,听感更抓耳 [7] - 在专业音乐人参评的主观指标(如音乐旋律性、人声表现力、编曲/结构、情绪表达与渲染)上,Mureka V8全面胜出竞争对手Suno V5 [7] Mureka V8模型核心功能与体验 - 模型生成速度快,例如根据提示词生成一首近3分钟的中文歌曲《冬日的漫长告别》耗时不到半分钟 [14][15] - 生成歌曲结构丰富,包含前奏、主歌、副歌的递进,旋律与情感交织,编曲讲究乐器选用和进入时机 [15][17] - 歌词具备强故事性与画面感,通过徐徐展开的方式讲述故事 [16] - 支持二次创作功能,包括局部编辑、延长与裁剪,赋予创作者更高自由度与可玩性 [17] - 创作完成的歌曲能够即时发布,缩短从素材生产到成品分发的路径 [18] - 模型支持多种曲风(如流行、摇滚、嘻哈、R&B、民谣等)和情绪(如欢快、轻松、浪漫、悲伤等)的生成 [21] 底层技术创新:MusiCoT与人声建模 - 模型性能提升归功于公司自研的“MusiCoT”(音乐思维链)技术,该技术受语言建模中思维链提示启发,让模型能像人类一样预定义整体音乐结构及风格、乐器等元素,再生成音频 [27][28] - MusiCoT利用对比语言-音频预训练(CLAP)架构,在同一个空间中对文本与音频进行学习和训练,提高二者匹配度 [28] - 人声建模技术是模型能够“告别AI味唱腔”的另一关键因素,为人声注入统一而鲜明的人格,使其具备主唱气场 [21][31] - 两项技术加持下,AI音乐生成逻辑更接近人类,懂得铺垫、高潮等起承转合,具备驾驭宏大叙事的能力 [30][32] 公司战略与生态布局 - 公司宣布将推出“AI Studio”,为专业创作者打造更完整、可控的音乐创作环境,提供深度编辑、结构调整和创作管理功能,同时兼顾新创作者的易用性体验 [38] - 借助Mureka Studio,公司旨在重塑音乐创作范式,将创作者从操作技巧中解放,让创作回归“想法”和“审美”本身,创作者可像导演一样提出创意,由AI完成细粒度执行工作 [39] - 在B端,Mureka平台通过开放API服务与模型微调功能巩固优势,API允许终端用户结合歌词、人声和参考歌曲进行定制与调整 [41][42] - 公司与太和音乐达成战略合作,为AI创作者提供流量扶持与变现机会,推动更多人参与AI音乐创作,并可能加速AI音乐商业化、正版化落地 [42]
字节跳动李航博士新作:AI智能体的通用框架
机器之心· 2026-01-28 21:08
AI智能体通用框架 - 字节跳动李航博士在JCST期刊上提出了一个涵盖软件和硬件智能体的通用框架[3] - 该框架的核心特点是:智能体以完成任务为目标,以文本或多模态数据作为输入和输出,依赖大语言模型进行推理,通过强化学习构建,并能使用各类工具与长期记忆系统[3] - 业界常见的智能体及字节跳动Seed团队近期研发的智能体均可纳入此通用框架[3] 框架核心构成 - 智能体由多模态大语言模型、工具、记忆、多模态编码器、多模态解码器及动作解码器组成[11] - 大语言模型是智能体的核心,承担“思考”功能,其能力决定智能体的水平[8] - 智能体可以调用工具,并从长期记忆或工作记忆中读写信息和知识[11] - 硬件智能体需要两类模型:用于高层任务规划的多模态大语言模型,以及用于低层动作规划的多模态-语言-动作模型[12] 智能体实例与特点 - AutoGPT、LangChain、ReAct、Gemini Robotics 1.5及字节跳动Seed团队的AGILE、Delta Prover等智能体框架均为该通用框架的特例[14] - 智能体是“合理行动的机器”,能在环境中互动以完成任务[6] - 智能体根据应用需要可具有高自主性或低自主性[15] 与人脑信息处理机制的关联 - 智能体框架与人脑信息处理机制在功能层面存在对应关系,均具有两层结构:上层串行处理,下层并行处理[19] - 两者在处理信息时,均通过符号表征与神经表征两种形式进行,即均采用了神经符号处理[19] 软件与硬件智能体的异同 - 软件智能体与硬件智能体在信息处理框架上一致,主要区别在于输入输出形式[21] - 软件智能体通常以文本及多模态数据输入,输出符号形式结果;硬件智能体需处理更多样输入,并输出物理动作[21] - 硬件智能体借助更丰富的输入与动作空间,可能发展出更通用、更具适应性的智能[21] 大语言模型在智能体中的角色与局限 - 大语言模型是智能体的核心,其智能水平主要依赖大语言模型的能力[22] - 经过强化学习微调的大语言模型本身就是一种强大的智能体[22] - 大语言模型的不足包括:只有短期记忆、不具备搜索和计算等能力、不能直接处理多模态数据[22] 神经符号处理 - 智能体应具备神经符号处理能力,这是其与多模态大语言模型之间的主要区别[27] - 严谨的逻辑推理和数学计算应通过相应工具实现,而非仅依赖大语言模型[27] - 长期记忆中的世界知识可以更自然地以符号形式呈现,智能体的记忆中可以维护一个通过符号处理构建的语义网络[27] 未来研究方向 - 扩大数据规模是当前智能体开发的最大瓶颈,需在通用或垂直领域收集足够大规模的训练数据[31] - 未来的智能体应能够在与环境的互动过程中进行自主学习和持续学习[32] - 智能体的安全性和可控性是最重要的问题之一,高自主性智能体可能带来更大风险[34] - 强化学习的奖励函数若超出完成任务的范围,可能带来极大风险,需设置研发红线[34]
比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题
机器之心· 2026-01-28 12:59
文章核心观点 - 斯坦福大学、英伟达等机构联合提出了一种名为“测试时训练以探索”(TTT-Discover)的新方法,该方法通过在解决单个测试问题时对冻结的大语言模型进行强化学习,使其在测试过程中持续自我训练,从而发现科学问题的新最优解[4][6] - 该方法的核心创新在于将学习目标从优化平均奖励转变为寻找单一最高奖励,并结合了熵目标函数和PUCT启发的状态复用策略,以优先探索最有前景的解决方案,而非追求多个方案的平均表现[13][14][15][17] - 在数学、GPU内核工程、算法设计和生物学等四个领域的测试中,TTT-Discover方法均取得了突破性成果,超越了现有最佳人类方案和AI方案,展示了其在解决超出训练数据分布的复杂科学发现问题上的潜力[7][19][24] TTT-Discover方法创新 - 方法核心是在测试时针对单个问题环境执行强化学习,目标是产出该问题的一个优秀解决方案,而不是提升模型在所有问题上的平均表现[6] - 摒弃了标准RL算法(如PPO/GRPO),因其优化期望奖励(平均分)的策略容易止步于“安全但平庸”的区域,不利于寻找突破性的高奖励解[13] - 引入两个关键组件:1) 熵目标函数,通过指数加权极端偏向高奖励样本,并为每个初始状态自适应设置参数以稳定训练[14];2) 受PUCT启发的状态复用策略,使用子状态的最大回报(而非平均回报)来评估和选择初始状态,确保搜索集中在最有前景的路径上[15][16] - 该方法在测试时持续更新模型权重,随着训练步数增加,模型生成的解决方案奖励分布显著提升,最终超越以往最优结果[10] 结果评估(数学领域) - 在Erdős最小重叠问题上,TTT-Discover取得了0.380876的成绩,刷新了此前人类最佳(0.380927)和AI最佳(AlphaEvolve的0.380924)的记录[12][20] - 使用的基础模型为OpenAI gpt-oss-120b,计算成本较低,每个问题仅需花费几百美元[7] 结果评估(GPU内核工程领域) - 在GPUMode TriMul竞赛中,TTT-Discover开发出的A100 GPU内核比人类最佳方案快50%[7][22] - 具体数据:在A100上,TTT-Discover的最佳内核耗时为2198.2微秒,显著优于排名第一的人类方案(4531.5微秒)和最佳AI基线方案(Best-of-25600的9219.7微秒)[23] - 在所有测试的GPU类型(包括H100、B200、AMD MI300X)上,该方法相比人类最佳结果均实现了超过15%的性能提升[22] 结果评估(算法设计领域) - 在AtCoder的Heuristic Contest 39(几何问题)中,TTT-Discover得分为567,062,超越了最佳人类得分(566,997)和最佳AI得分(ShinkaEvolve的558,026)[12][25] - 在AtCoder的Scheduling问题(ahc058)中,TTT-Discover得分为848,414,228,超越了最佳人类得分(847,674,723)[25] 结果评估(生物学领域) - 在单细胞RNA测序数据去噪任务中,TTT-Discover在PBMC和Tabula数据集上均取得了最佳成绩,得分分别为0.71和0.73,优于此前的最佳人类方法(MAGIC的0.64)和最佳AI基线(Best-of-25600)[12][26] 方法局限与未来方向 - 该方法目前仅适用于具有连续奖励的问题,未来重要的研究方向是将其应用于具有稀疏奖励或二元奖励的问题,例如数学证明、科学假说或物理、生物推理等不可验证领域[26]
AAAI 2026 Oral | SplatSSC:解耦深度引导的高斯泼溅,开启单目语义场景补全高效新范式
机器之心· 2026-01-28 12:59
1. 深度学习下的场景理解:从密集网格到对象中心表征 单目 3D 语义场景补全 (Semantic Scene Completion, SSC) 是具身智能与自动驾驶领域的一项核心技术,其目标是仅通过单幅图像预测出场景的密集几何结构与语义 标签。 1. 基元初始化的盲目性:现有的方法往往通过在 3D 空间内随机分布数万个高斯基元来覆盖场景。实验发现,这种随机初始化的有效利用率极低(仅约 3.9%), 造成了巨大的计算冗余。 2. 异常基元引发的 "漂浮物" 伪影:在处理稀疏基元聚合时,现有的方法往往无法有效处理孤立的离群点,导致在空旷区域生成错误的语义碎块,即所谓的 "Floaters" 现象。 针对这些挑战,我们提出了SplatSSC。该框架通过创新的深度引导策略与解耦聚合机制,实现了性能与效率的跨越式提升。 图 1 : SplatSSC 与主流框架的初始化策略对比。 (a) 现有的 Transformer 框架通常依赖大规模随机分布的高斯基元,这不可避免地引入了空间冗余,导致模型容量的浪费。 (b) 相比之下, SplatSSC 利用几何 先验进行引导,仅需一组精简且目标明确的高斯基元,即可实现高效的空间 ...