机器之心
搜索文档
告别抽卡!一手实测字节刚放出的视频模型Seedance 1.5 pro
机器之心· 2025-12-18 17:08
产品发布与核心升级 - 火山引擎在2025年冬季FORCE原动力大会上正式发布了新一代豆包视频生成模型「Seedance 1.5 pro」[2] - 该模型最大更新在于实现了原生音画高精同步,覆盖环境音、动作音、合成音、乐器音、背景音乐及人声等全场景,音画同步率全球领先[5] - 模型能够更好地遵循复杂指令,支持更多外国语言与中文方言的自然对白,更精准地捕捉运动细节,叙事理解与连贯性更强,人物情绪与表情呈现也更加细腻[5] 技术性能与评估 - 在视频能力评估中,Seedance 1.5 pro在文本生成视频的对齐度指标上取得领先,并在其他多项指标上位居前列[6] - 在音频能力评估中,Seedance 1.5 pro在生成质量、同步性、对齐度、表现力等多项指标上全方位超越谷歌Veo 3.1和昆仑万维Kling 2.6[6] - 相较于前代Seedance 1.0 pro,新版本完成了从视频生成模型到原生音视频联合生成基础模型的跃迁[54] 核心功能与实测表现 - 模型支持中文、英文、小语种及16种中文方言,包括陕西话、四川话、东北话、台湾腔、闽南语、粤语等[13][14] - 能够生成多人多语言对白视频,实现口型毫秒级精准对齐,对话语气、气口和语调自然[13][25] - 在影视级叙事张力上表现突出,能根据单张图像生成细腻的多种人物情绪表情,如开怀大笑、愤怒、悲伤、疲惫等[31][32][33] - 擅长处理复杂动态场景,如赛车疾驰、战争场面、第一人称追逐戏,运动幅度大且流畅,能精准捕捉多层次运动元素和环境音效[35][37][38] - 具备商业广告制作潜力,能严格遵循长而复杂的提示词,处理复杂空间变化,精准还原极简风格、科技感等抽象概念和品牌调性[40][41] 技术架构与创新 - Seedance 1.5 Pro在架构层面原生支持音视频联合生成,包括文本到音视频生成和基于图像引导的音视频生成[47] - 关键技术融合了统一的多模态联合生成架构、全面的音视频数据框架、精细化的后训练优化策略和高效的推理加速方案[49] - 在框架层面,提出基于MMDiT架构的统一建模框架,支持跨模态深度交互,确保视听信号时间精准同步与语义高度一致[50] - 在数据层面,构建了以实现音画一致、运动表现力为核心目标的高质量音视频数据框架[51] - 在后训练阶段,引入了为音视频场景定制的基于人类反馈的强化学习算法,使训练速度提升近三倍[52] - 在推理阶段,通过优化蒸馏框架和基础设施,在保持性能前提下实现了10倍以上的端到端推理加速[52] 产品可用性与稳定性 - Seedance 1.5 pro已上线火山方舟体验中心,预计12月23日通过火山引擎为企业用户提供API,个人用户可通过即梦网页版和豆包App使用[8] - 模型表现出极高的指令遵循度,基本不需要用户反复“抽卡”式生成,首次生成的视频效果往往最佳[43] - 对于日常内容创作、轻量级商业广告以及AI短剧制作,Seedance 1.5 Pro被认为完全够用[44] 行业意义与发展阶段 - Seedance 1.5 pro的发布是自2024年初Sora亮相以来,视频生成领域快速演进的一个缩影[58] - 行业技术已从“人类直觉可接受”阶段,开始真正迈向“创作级、生产级”阶段,使小团队能完成过去需影视工作室完成的内容[59] - 新版本在补全模型能力的同时,加快了体系化竞争的步伐,持续缩小模型输出与真实视频制作需求之间的差距[59] - 业界对视频生成领域有更高期待,例如马斯克希望其模型Grok能在2026年底前产出至少能看的电影[60] - 预计未来,视频生成大模型将以更成熟的方式参与从创意生成到内容制作的全过程,使用比重和承担角色将继续提升[61]
北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵
机器之心· 2025-12-18 17:08
研究背景与挑战 - 当前视觉-语言-动作模型在机器人场景理解与操作上展现出通用性,但在需要明确目标终态的长时序任务中,难以兼顾高层规划与精细操控 [2] - 长周期任务面临两大核心难题:一是需要执行精确操作以严格对齐预定义最终状态;二是需要将长周期规划与细粒度控制有效集成,同时保持对多样化现实环境的泛化能力 [9] - 现有依赖人工制作说明书或人类演示视频的分层方法,在泛化到未见过的最终目标状态方面存在局限,难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA 方法概述 - 该模型由北京大学、香港中文大学与至简动力团队提出,旨在解决长时序任务中规划与执行的割裂问题 [3] - 核心创新是构建了全新的「生成–理解–动作」一体化模型,让模型学会自己生成多模态操作说明书,再按说明书去执行动作 [5][12] - 模型摒弃了将高层次规划与动作生成拆分的传统分层方案,构建了全新的通用基础模型 Mixture-of-Transformers 架构,在同一模型中统一多专家模块,实现多模态生成与动作执行的紧密协同 [5] 核心技术:架构与思维链机制 - 模型基于 MoT 架构,集成了「规划专家」和「动作专家」两个模块,实现了多模态手册生成和动作执行之间的连贯协作 [14] - 引入了「说明书思维链」推理机制,该机制通过显式与隐式两条路径影响动作生成 [15] - 显式路径将规划专家预测的目标位置以视觉提示形式叠加在当前图像上,构成带有明显操作区域提示的「提示图」,直接指导动作专家 [19] - 隐式路径将手册生成时产生的内部特征通过专门设计的注意力掩码传递给动作专家,在潜在空间中提供持续的隐式引导 [19] - 消融实验表明,去掉显式或隐式路径中的任一路径都会显著降低长任务中的成功率,说明两者结合才能兼顾精度与稳健性 [19] 三阶段训练策略 - **第一阶段**:基于互联网机器人数据集,筛选与装配和重排相关的轨迹,构建超过 40 万条示例的预训练集,只更新动作专家,学习抓取、搬运和放置技能 [20] - **第二阶段**:利用基于三维高斯表示的数字孪生工具,对乐高板、积木和常见物体进行三维重建,在虚拟空间中合成上万帧带有精确标注的手册数据,用于训练规划专家 [20][23] - **第三阶段**:在真实双臂平台上通过遥操作采集专家示范轨迹,对规划与动作两个专家进行联合微调,使模型在真实环境中的规划–执行闭环更贴合物理世界 [21] 实验性能:真机与仿真 - **真机实验**:在 Franka 双臂平台上测试了 2D 乐高组装、3D 乐高组装和物体重新排列三个长周期任务 [24] - **手册生成质量**:规划专家在 300 个未见过的测试样本上生成了高质量的中间图像,例如 2D 乐高组装的 PSNR 达 29.01,物体重新排列的 FID 分数为 24.46,2D 乐高组装的 MAE 分数为 3.23,证明了生成图像的真实性、保真度和位置预测的精确性 [24][27] - **动作生成成功率**:在所有三个真实世界长周期任务中均取得了最高成功率,相比最强的分层基线,最终任务完成率提高了 15% 到 30%,平均成功率高出 32% [7][28] - **仿真实验**:在 RLBench 的 10 个仿真任务上取得了 70% 的平均成功率,超越了 SOTA 方法 π0 的 63% [31][32] 消融与泛化能力 - 消融实验证明,说明书中所有模态信息和隐式思维链推理对于解决长周期、目标明确的操作任务是不可或缺的,两者结合才能达到最佳性能 [33] - 模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力,例如在背景变化下任务成功率为 0.65,仅下降 23%,优于基线模型的下降 25% [37]
刚刚,让谷歌翻身的Gemini 3,上线Flash版
机器之心· 2025-12-18 08:03
谷歌发布Gemini 3 Flash模型 - 谷歌发布高速、低成本模型Gemini 3 Flash,作为其大模型领域收官之作,并已将其设为Gemini应用和搜索AI模式中的默认模型 [2][3] - 该模型距离前代Gemini 2.5 Flash发布仅六个月,但在性能上实现了显著跃升,并在部分指标上达到了Gemini 3 Pro和GPT-5.2等前沿模型的水平 [3] - 新模型在全球范围内向数以百万计的用户开放,覆盖Gemini应用、搜索AI模式、Google AI Studio、Vertex AI和Gemini Enterprise等渠道 [7][12][33] 模型性能与基准测试 - 在Humanity's Last Exam基准测试中,Gemini 3 Flash在不使用工具的情况下得分为33.7%,接近Gemini 3 Pro的37.5%和GPT-5.2的34.5%,远高于前代Gemini 2.5 Flash的11% [6][10] - 在GPQA Diamond科学知识基准测试中,Gemini 3 Flash取得90.4%的高分,接近Gemini 3 Pro的91.9%和GPT-5.2的92.4% [10][13] - 在多模态推理基准MMMU Pro上,Gemini 3 Flash以81.2%的分数达到当前最先进水平,与Gemini 3 Pro的81.0%不相上下 [11][13] - 在代码智能体能力基准测试SWE-bench Verified上,Gemini 3 Flash取得78.0%的成绩,超越了Gemini 3 Pro的76.2% [13][20] - 在视觉推理基准ARC-AGI-2上,Gemini 3 Flash以33.6%的成绩超过了Gemini 3 Pro的31.1% [13][14] - 精简后的模型体积缩小了3-4倍,但性能已超越6个月前的前沿模型 [14] 模型效率、速度与成本 - Gemini 3 Flash被定位为全球性价比最高的模型,在智能与成本上具有优势 [4] - 模型具备极致的原生速度,响应时间基本在1秒以内,与搜索引擎一样快 [7] - 在最高思考等级下,模型能动态调节思考深度,平均使用的token数量比Gemini 2.5 Pro减少约30% [14] - 根据基准测试,Gemini 3 Flash在性能超越Gemini 2.5 Pro的同时,速度提升达到3倍,而成本仅为其一小部分 [16] - 在定价方面,Gemini 3 Flash的输入费用为每100万token收费0.50美元,输出费用为每100万token收费3.00美元 [13][23] - 该价格显著低于Gemini 3 Pro的输入2.00美元/百万token和输出12.00美元/百万token,也低于GPT-5.2 Extra high的输入1.75美元/百万token和输出14.00美元/百万token [13] 应用场景与开发者工具 - 模型专为高频迭代开发打造,提供低延迟和Gemini 3 Pro级别的代码能力,适合高并发、快节奏的工作流 [19] - 其推理、工具使用及多模态能力非常适合复杂的视频分析、数据抽取和视觉问答,能支撑游戏内助手或A/B测试等需要快速响应和深度推理的应用场景 [21] - 企业客户如JetBrains、Bridgewater Associates和Figma已开始使用该模型推动业务转型,认可其推理速度、效率及媲美更大规模模型的能力 [25] - 开发者可通过Google AI Studio中的Gemini API、Gemini CLI以及全新的智能体开发平台Google Antigravity访问该模型 [12][33] 消费者应用与市场影响 - Gemini 3 Flash已成为Gemini应用的默认免费模型,取代了2.5 Flash,大幅提升全球用户日常任务处理效率 [28] - 用户可利用其多模态能力快速理解视频和图像,并在几秒钟内将其转化为实用计划,或通过语音指令在几分钟内从零开始构建功能完善的应用程序 [28][30] - 模型正逐步推广,旨在成为谷歌搜索功能中AI模式的默认模型,以搜索的速度提供全面、结合实时网络信息的回复与分析 [32] - 行业观察认为,新模型预示着AI模型新时代的到来,并可能被谷歌用来增强或替代搜索引擎,或逐渐移植到移动端侧 [8]
比LoRA更快更强,全新框架LoFA上线,秒级适配大模型
机器之心· 2025-12-18 08:03
行业痛点与现有技术局限 - 通用视觉基础模型在满足用户细粒度、个性化生成需求时表现不佳,难以生成完全符合期望的结果[6] - 当前主流的个性化方法,如以LoRA为代表的参数高效微调技术,需要为每个任务单独优化适配器,依赖特定任务数据且优化过程耗时耗力,难以满足实际应用对快速响应的要求[2][6] - 现有尝试直接预测LoRA权重以实现快速适配的研究面临根本挑战:需学习从低维用户指令到高维复杂LoRA参数分布的复杂映射关系,目前仅在图像生成的身份个性化等受限场景中得到验证,且可能因权重压缩至低维空间而造成信息损失[7] LoFA框架核心创新 - 提出全新框架LoFA,能够根据用户指令在数秒内前馈式直接生成对应的LoRA参数,使大模型快速适配个性化任务,无需漫长优化,效果媲美甚至超越传统LoRA[2] - 核心思路是在超网络设计中嵌入新型引导机制,直接从用户指令中预测完整且未经压缩的LoRA权重,无需依赖有损压缩技术[9] - 关键发现是LoRA权重与原始模型参数间的相对变化会形成独特的结构化模式,即“响应图谱”,能有效捕捉用户指令的核心影响[9] - 设计全新两阶段学习架构:网络首先预测维度更低、结构更简单的响应图谱,随后运用习得的响应知识引导最终的LoRA权重预测,从而简化学习过程并提升稳定性[11][12] 实验验证与性能表现 - 在视频生成任务中,以WAN2.1-1.3B为基础模型,评估了基于文本或运动姿态的个性化人体动作视频生成,以及以风格图像为参考的文本到视频风格化[14] - 在图像生成任务中,以Stable Diffusion XL为基础模型,评估了ID个性化图像生成[15] - 实验表明,LoFA在性能上显著超越基线方案,并达到了与独立优化的LoRA模型相媲美甚至更优的效果,证明了快速模型适配在实际应用中的可行性[15] - LoFA将模型适配时间从数小时缩短至秒级,在保持高质量生成结果的同时,彻底消除了冗长的优化过程[24] 技术意义与未来展望 - 该进展为高效模型适配确立了新的范式,有望推动各类实时个性化应用的发展[24] - 当前LoFA仍需针对不同领域的特定指令分别训练独立网络,理想的未来解决方案是构建具备强大零样本能力的统一超网络,通过扩大训练数据的规模与多样性来实现[24]
分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音
机器之心· 2025-12-17 17:42
核心观点 - Meta发布并开源了名为SAM Audio的统一多模态提示音频分割模型,该模型能够通过文本、视觉或时间片段提示,从复杂音频混合中分离出任意声音,彻底改变音频处理方式 [1] - 该模型在多项音频分离任务上实现了业界领先的性能,运行速度快于实时处理,并首次支持多种交互方式,为用户提供了更精确、直观的控制能力 [9][35][40] - Meta同时发布了支撑SAM Audio的核心引擎PE-AV、首个真实环境音频分离基准SAM Audio-Bench以及首个用于音频分离的自动评测模型SAM Audio Judge,旨在推动音频AI领域的发展 [10][26][33] 模型与技术架构 - **SAM Audio模型**:采用基于流匹配扩散Transformer的生成式建模框架,接收混合音频及多模态提示,生成目标音轨与剩余音轨 [12] - **核心技术引擎PE-AV**:基于Meta此前开源的Perception Encoder模型构建,通过将视频帧与音频在精确时间点上对齐,提供稳健且语义丰富的特征表示,是支撑SAM Audio效果的核心 [2][20][22] - **数据引擎与训练**:构建了一套完整的数据引擎,融合先进的音频混合技术、自动化多模态提示生成及伪标签流程,生成贴近真实场景的训练数据 [14] - **训练数据规模**:模型基于多样化的数据集训练,内容横跨语音、音乐及各类通用声音事件;PE-AV基于超过1亿条视频进行训练 [15][25] 功能与应用场景 - **三种分割方式**: - 文本提示:输入如“狗叫声”等描述以提取特定声音 [16] - 视觉提示:在视频中点击发声的人或物体以分离对应音频 [16] - 时间跨度提示:业内首创,允许用户标记目标声音出现的时间片段以实现更精确分割 [4][16] - **应用场景**:包括音频清理、背景噪声移除、从乐队演出录像中分离特定乐器声、滤除视频中的交通噪声、去除播客中的持续噪音等,旨在构建下一代创意媒体工具 [4][5] 性能与评估 - **性能表现**:在通用音频分离及语音、音乐、通用声音等所有音频类别上,性能均显著领先于以往工作,并达到了最佳领域专用模型的水平 [35][36] - **处理速度**:运行速度快于实时处理,实时因子约为0.7,在5亿到30亿参数规模下都能高效进行大规模音频处理 [40] - **多模态提示优势**:混合模态提示(如文本结合时间提示)的效果优于单一模态方法 [39] - **评估体系**: - **SAM Audio Judge**:首个用于音频分离的自动评测模型,提供无需参考音频的客观评测方式,从9个感知维度(如召回率、精确度、整体质量)评估分割质量 [10][26] - **SAM Audio-Bench**:首个全面的真实环境音频分离基准,覆盖语音、音乐、通用音效及所有提示类型,并率先引入无参考评估方式 [10][30][33] 发布与生态建设 - **开源与平台**:公司向社区开源了SAM Audio和PE-AV模型,发布了相关研究论文和代码,并将所有成果整合进全新的“Segment Anything Playground”平台供公众体验 [5][7][17][23] - **行业合作**:宣布与美国最大助听器制造商Starkey以及创业加速器2gether-International建立合作,探索模型在推动无障碍技术方面的应用 [43] - **行业意义**:此次发布被视为迈向更易用、更具创造力、更加包容的AI的一步,为理解复杂声学环境和响应多模态自然提示提供了新的可能性 [43] 当前局限性 - 目前不支持以音频本身作为提示 [44] - 无法在没有任何提示的情况下进行完整的音频分离 [44] - 在高度相似的音频事件(如从合唱中分离单一歌手或从交响乐中分离单一乐器)之间进行分离仍具挑战性 [44]
官宣!姚顺雨出任腾讯首席AI科学家,带队大语言模型、AI Infra
机器之心· 2025-12-17 17:42
腾讯大模型研发架构升级 - 公司升级大模型研发架构,新成立AI Infra部、AI Data部、数据计算平台部,以全面强化其大模型研发体系与核心能力 [2] - AI Infra部将负责大模型训练和推理平台技术能力建设,聚焦分布式训练、高性能推理服务等核心技术,构建AI Infra核心竞争力 [3] - AI Data部将负责大模型数据及评测体系建设 [4] - 数据计算平台部将负责大数据和机器学习的数据智能融合平台建设工作 [4] 关键人事任命与汇报关系 - 姚顺雨(Vinces Yao)出任腾讯“CEO/总裁办公室”首席AI科学家,向总裁刘炽平汇报;同时兼任AI Infra部、大语言模型部负责人,向技术工程事业群总裁卢山汇报 [2] - 王迪继续担任大语言模型部副总经理,向姚顺雨汇报 [5] - 刘煜宏担任AI Data部负责人,陈鹏担任数据计算平台部负责人,均向公司副总裁蒋杰汇报 [5] 新任首席AI科学家的背景 - 姚顺雨是人工智能领域,特别是“智能体(Agent)”方向备受瞩目的青年研究者 [6] - 在加入OpenAI之前,他已在语言智能体领域做出了一系列开创性工作,并参与构建了著名软件工程基准SWE-Bench和模拟电子商务网站环境WebShop [7] - 其论文总引用量已超过1.9万次 [7] - 其研究工作包括使AI通过多路径推理解决复杂问题的ToT(思维树)、让AI在推理中动态行动的ReAct,以及为AI智能体提供模块化认知架构的CoALA [11]
硬刚Sora2,万相2.6轻松定制角色、控制分镜,普通人也能当导演
机器之心· 2025-12-17 13:28
行业年度回顾与趋势 - 2025年视频生成领域发展突飞猛进,视频内容创作范式正在发生改变 [1] - 行业在B端和C端商业化落地速度惊人:B端大量AI短剧、漫剧上线,制作成本大幅降低;C端社交平台出现爆款特效,大量博主开始常态化使用AI制作剧情短片 [1] - 顶尖模型生成的画面在光影质感与物理规律上已臻化境,但用户体验门槛依然存在,如高不可攀的内测资格或不菲的订阅费用 [1] 公司产品发布与定位 - 阿里于12月16日正式发布新一代万相2.6系列模型,涵盖文生视频、图生视频、参考生视频、图像生成和文生图共5款模型,是目前全球功能覆盖最全面的视频生成模型家族之一 [2][3] - 万相2.6是**国内首个**具备声画一致性角色定制能力的模型,能通过角色参考固定IP形象,并参考输入视频中的音色,实现从画面到声音的完美复刻 [3] - 该版本进一步提升了画质、音效和指令遵循能力,单次视频生成时长实现了**国内最高的15秒**(参考生视频为10秒) [3] - 模型已同步上线阿里云百炼和万相官网,企业用户可直接调用API,千问APP也将于近期上线 [3] 核心技术能力突破 - 万相2.6具备“参考生视频”能力,成为**全球唯二、国内首个**拥有此能力的模型,允许将任意人或物设定为主角,在多镜头切换中保持核心主体、场景和环境氛围的统一 [7] - 模型在结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,提取主体的时序情绪、姿态、视觉特征及音色、语速等声学特征,实现从视觉到听觉的全感官一致性迁移 [9] - 模型具备“分镜控制”功能,通过高层语义理解将简单提示词转换为多分镜脚本,生成包含多个镜头的连贯叙事视频,确保内容、节奏和氛围的高一致性 [3][9] 产品功能实测与效果 - 实测中,万相2.6能精准提取参考素材中主体的形象特征、声音声线及惯用神态,并可通过提示词将其置入全新剧情 [11] - 在多角色声画同步测试中,模型对科技人物(如奥特曼、哈萨比斯、黄仁勋)的眉眼微表情、肢体语言及习惯性动作还原度极高,英文版能完美复刻其原本的声线与语调 [13][14] - 在细节把控测试中,模型能生成电影级高保真度的特写镜头,完美呈现如眼镜片因热气起雾、皮肤细微纹理和毛孔“呼吸感”等复杂细节,打破了AI生成人物常见的“塑料感” [17][18] - 在长叙事能力测试中,模型展现出了类似专业导演的运镜意识,能通过推拉摇移和景深变化掌控叙事节奏,并高度还原设定的视觉风格与人物情绪 [24] 图像生成能力升级 - 万相2.6在静态图像生成领域完成了版本迭代,在“高美学”与“强可控”上同时迈进 [26][27] - 在文生图方面,新模型实现了对艺术风格的“灵魂捕捉”,对肌理、色彩、笔触等细节刻画更为到位,并能进行平滑自然的风格融合 [27] - 针对人物写实照片,2.6版本综合优化了构图与光影,削弱了“AI塑料感”,人物神态更自然,肤质真实感大幅提升 [29] - 新版本改善了在图片中生成中英文文本的能力,并新增了“图文混排输出”和“多图融合生成”等功能,能依据逻辑创作具有叙事性的绘本或复杂商品组合场景 [31] - 模型提供了商用级的一致性保持能力,以及更精确的镜头远近视角和光影效果控制选项 [33] 应用场景与市场影响 - 万相2.6面向广告设计、短剧制作等专业场景展现出惊人潜力,通过连续提示词能生成完整叙事的短片 [16] - 万相模型家族已支持文生图、图像编辑、文生视频等10多种视觉创作能力,已广泛应用于AI漫剧、广告设计和短视频创作等领域 [35] - 万相2.6的发布标志着AI视频生成告别“抽卡”时代,迈向了精准可控的电影级创作新阶段,将昂贵的影视工业特权折叠进了手机和云端 [36]
WAIC Future Tech 2026:全球科技曝光+合作,资本的下一个掘金点
机器之心· 2025-12-17 13:28
活动概况 - 活动名称为“Future Tech Demo Day”,由世界人工智能大学与光源产业创新孵化器联合举办 [1][2] - 活动将于2025年12月20日13:00在北京清华科技园阳光厅举行 [5] - 活动议程包括创投生态共建计划发布、神秘嘉宾圆桌讨论以及项目路演环节 [2] 参与项目与团队 - 活动将集中展示14个经过初步筛选的创业项目Demo [3] - 参与团队主要集中于AI应用、基础设施、硬件及前沿科技领域 [4] - 项目融资阶段多为种子轮到A轮 [4] 展示项目详情 - **项目1 (及云智句)**:专注于利用AI助力全球优质矿产资源的加速发现 [7] - **项目2 (嫡海领航)**:聚焦AI在大型企业的价值落地,提供从数据驱动到决策驱动的范式和解决方案 [8] - **项目3 (芯寒智能)**:提供名为“液冷革命”的散热解决方案,以迎接高密度计算时代 [8] - **项目4 (萝博派对)**:致力于让每个开发者都能玩转机器人 [8] - **项目5 (光象科技)**:展示工业具身智能机器人 [8] - **项目6 (LOGOS ROBOTICS)**:研究基于世界模型的具身智能 [8] - **项目7 (光速进化)**:开发AI智能管家 [8] - **项目8 (悟灵科技)**:推出“悟灵影像”产品,旨在让人人都能珍藏时光,卸下专业枷锁 [8] - **项目9 (JINN.AI)**:打造面向GEN Z世代的游戏AI数字空间 [8] - **项目10 (KOSMO)**:开发由东方哲学AI驱动的择吉硬件矩阵 [8] - **项目11 (无限ID)**:旨在打造继电影和游戏之后的新一代文娱产业 [8] - **项目12 (未在文中明确列出项目名称)** [8] - **项目13 (酷奇奇)**:打造“万物皆可CP的AI小剧场” [9] - **项目14 (快约面试)**:通过KYMS AI实现从人找人到智能体交付招聘结果 [9]
经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%
机器之心· 2025-12-17 13:28
深度思考大模型面临的效率困境 - 以DeepSeek-R1为代表的深度思考大模型依赖DeepSearch作为核心搜索器,通过迭代调用外部搜索工具来提升推理深度和事实可靠性[2] - 现有强化学习驱动的系统面临准确率与效率的“跷跷板”困境:频繁调用搜索工具虽能提升准确性,但导致计算开销大、效率低下[2] - 高频调用外部搜索工具使推理延迟大幅升高,等待时间可达几十秒至几分钟,超过50%的移动用户会在信息加载时间超过10秒后放弃访问[2] LightSearcher框架的技术创新 - 北邮百家AI团队提出LightSearcher框架,首创基于经验记忆的高效强化学习优化技术,通过引入文本化经验记忆和自适应奖励塑造机制解决效率痛点[3] - 框架核心思路是将隐性推理轨迹转化为显性指导经验,并结合自适应奖励优化工具调用,包含对比经验推理机制、自适应奖励塑造机制和基于经验的强化学习训练机制三大关键组件[9][14] - 模型最终优化目标为多目标奖励函数的加权和,旨在协同提升工具调用精简度与答案质量[11] LightSearcher的实验性能表现 - 研究团队在四个多跳问答基准数据集上进行了全面评估,实验结果显示该框架在保持与最先进基线ReSearch相当准确率的同时,效率显著提升[3][13] - 具体性能提升包括:搜索工具调用次数减少39.6%,推理时间缩短48.6%,Token消耗降低21.2%[3][18] - 消融实验表明,移除经验记忆组件导致F1分数下降7.2%,证明了该组件的核心作用[16] 框架解决的问题与优势 - 解决了现有方法依赖人工标注成本高、泛化差,以及强化学习方法奖励偏重准确性导致工具过度调用的问题[7] - 克服了工具调用“过度依赖”问题,避免了模型对简单查询也反复检索导致的推理时间延长和Token消耗激增[7] - 成功平衡了准确性与效率,部分模型变体在移除自适应奖励后,工具调用次数从1.62次升至2.06次,显示该机制对控制调用频率的关键作用[17] 技术影响与未来潜力 - LightSearcher通过“对比经验”设计思想,将对比轨迹转化为可解释的推理指导,实现了从隐性到显性的知识转化[19] - 该框架在不同难度的查询上均表现稳定,即使在域外测试集也能超越依赖固定检索的迭代方法,显示出强大的泛化能力[18] - 尽管目前研究限于多跳问答领域,但该框架为构建高效、可靠的深度推理系统提供了新路径,未来可扩展到代码合成、策略规划等领域[17][20]
SIGGRAPH Asia 2025:摩尔线程赢图形顶会3DGS挑战赛大奖,自研LiteGS全面开源
机器之心· 2025-12-17 13:28
文章核心观点 - 摩尔线程在SIGGRAPH Asia 2025的3DGS重建挑战赛中凭借自研的LiteGS技术获得银奖,证明了其在下一代图形渲染技术上的算法实力和软硬件协同能力[1] - 3DGS是一项革命性的3D场景表示与渲染技术,相比传统NeRF,能在保持画质的同时将渲染效率提升数百至上千倍,并被视为具身智能等前沿领域的关键基础技术[4][7] - 摩尔线程通过开源其全栈优化的3DGS基础库LiteGS,旨在推动技术开放协作,其方案在训练效率和模型轻量化上树立了新的性能标杆[18][24][27] 3DGS技术概述与行业意义 - 3DGS以可参数化的3D高斯分布为核心,实现了画质、效率与资源占用的卓越平衡[4] - 该技术为具身智能等需要与真实环境交互的领域提供了高质量、低延迟的三维环境建模支撑,有助于提升路径规划和环境感知能力[7] - 因其对未来图形学技术路线的关键意义,3DGS已成为全球学术界与产业界竞相投入的研究方向[8] SIGGRAPH Asia 2025挑战赛详情 - 竞赛任务极具挑战性,要求参赛者在60秒内,基于存在误差的相机轨迹和终端SLAM点云,完成完整的3DGS高质量重建[10] - 主办方以PSNR(重建质量)与重建速度为综合评价指标进行权威排名[12] - 比赛结果及数据集已向全球公开[13] 摩尔线程参赛表现与技术方案 - 摩尔线程AI团队以“MT-AI”参赛,在重建精度与效率上取得均衡表现,最终获得银奖[16] - 具体比赛数据显示,其方案平均PSNR为27.58,重建耗时34秒,在效率上显著领先多数队伍[17][20] - 公司自主研发的LiteGS基础库实现了从底层GPU系统、中层数据管理到高层算法设计的全链路协同优化[20][21] LiteGS技术的核心优势与性能数据 - 在GPU系统层面,创新提出基于“One Warp Per Tile”原则的“Warp-Based Raster”新范式,大幅降低梯度计算开销[21] - 在数据管理层,引入“聚类-剔除-压缩”流水线,显著提升数据局部性,减少缓存失效[21] - 在算法设计层,采用像素不透明度梯度方差作为致密化判据,精准识别欠拟合区域[21] - 性能表现突出:在达到同等质量时,LiteGS可获得高达10.8倍的训练加速,且参数量减少一半以上[25] - 在相同参数量下,LiteGS的PSNR指标超出主流方案0.2–0.4 dB,训练时间缩短3.8至7倍[29] - 针对轻量化模型,LiteGS仅需原版3DGS约10%的训练时间与20%的参数量,即可实现同等质量[29] 公司的战略布局与后续行动 - 此次获奖是公司准确把握全球技术发展趋势并引领未来图形计算技术方向的战略体现[28] - 公司计划在2025年12月20日至21日的首届MUSA开发者大会上设立技术专题,深入探讨3DGS等图形智能技术如何赋能具身智能等前沿领域[28] - 摩尔线程已将LiteGS在GitHub平台全面开源,以推动三维重建与渲染技术的开放协作与持续演进[27]