Workflow
机器之心
icon
搜索文档
字节做了个 AI 手机,钉钉做了台 AI 主机
机器之心· 2025-12-24 11:41
文章核心观点 - 行业正从“人操作App”向“AI操作Agent”转变,AI硬件成为定义设备新角色的关键入口[4] - 钉钉发布AI主机“DingTalk Real”,旨在为企业AI Agent提供一个独立、安全、可控的物理执行环境,以解决云端Agent无法触及本地数据与本地Agent存在安全合规风险的两难问题[2][5][13][14] - 钉钉通过“AgentOS”操作系统与“DingTalk Real”硬件协同,构建了一个多Agent可被统一调度、协作和治理的企业级AI工作体系,标志着AI开始深度融入并重构企业工作流程[21][23][32][39] AI硬件新趋势:从手机到主机 - 2025年底AI硬件领域活跃,月初豆包AI手机上线引发自动化体验与平台风控的讨论[1] - 钉钉随后发布第二款AI硬件“DingTalk Real”,一款定位为“真实可见、可触”的AI Agent执行载体的AI主机,将竞争场景从消费端延伸至企业端[2][4] - 两者共同指向设备角色的重新定义:从“人来操作App”变为“AI来操作Agent”,人只需提出需求[4] DingTalk Real:为AI Agent提供独立办公空间 - 产品定位为“给硅基员工一间独立办公室”,是一台部署于企业本地的独立物理主机[6][17] - 核心功能是运行AgentOS,让员工可远程唤醒AI Agent,这些Agent在授权范围内安全访问内网、本地文件及业务系统,并能串联任务、协同工作[11] - 设计解决了当前Agent部署的两大痛点:云端Agent难以访问本地资源,而本地部署又面临权限与安全风险[13] - 通过提供独立的手机与电脑运行环境,Agent可像真人一样操作各类应用,所有任务在隔离环境中执行,不触碰员工真实设备,从源头规避安全问题[16] - 硬件7×24小时在线,确保Agent访问实时数据,且不占用员工设备,任务可后台持续运行,同时关键决策仍需人工确认[17] - 产品已完成工程化与企业级打磨,将于2026年1月进入正式可交付阶段[35] AgentOS:AI工作操作系统的架构与协同 - AgentOS是钉钉打造的企业级AI工作操作系统,作为统一的任务调度与协同中枢[21][23] - 系统架构包含多个层级:内核底层负责任务规划、调度及企业治理;钉钉ONE作为新一代桌面入口;AI搜问负责理解用户意图并调度资源;超级Agent“悟空”承担具体执行与协同工作[24][27][28][30] - “悟空”作为通用AI Agent,具备自主规划、执行和反思能力,可调用钉钉内、第三方及企业自建的各类Agent和工具[30] - DingTalk Real硬件是该体系的关键组成部分,为Agent提供所需的独立运行环境[31] - 底层由钉钉开放平台支撑,可接入各类大模型、企业自建模型及MCP组件,未来钉钉所有AI产品都将基于AgentOS构建[32] 已实现的企业级应用场景与生态构建 - 在AgentOS与DingTalk Real协同下,已跑通AI差旅、AI招聘、AI客服等多个高频企业场景[33] - 例如,在差旅场景中,DingTalk Real可自动在手机环境中操作比价App,完成全网比价排序,为企业节省成本[34] - 钉钉自身正进行深度重构,推动产品全线Agent化、MCP化,并向开发者开放以共建生态[39] - 目前已构建起全球最大的企业级MCP广场和AI助理市场,并通过算力分成、按效果付费等机制绑定业务价值[40]
拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?
机器之心· 2025-12-24 11:41
文章核心观点 - 现有基于大语言/视觉模型的图像编辑智能体存在“指令幻觉”和“盲目脑补”问题,因其缺乏视觉反馈,导致决策与结果偏离用户初衷[2] - 传统强化学习依赖静态奖励模型易导致“奖励黑客”现象,即模型学会讨好打分器而非真正提升审美[2] - JarvisEvo通过引入“内省”机制,旨在实现智能体的自我进化,使其从“执行者”转变为“思考者”,核心在于模仿人类专家的闭环工作流[2][6][8] 核心范式转移与技术支柱 - **从执行者到思考者**:JarvisEvo的核心哲学是模仿人类修图师的闭环工作流:观察->构思->尝试->评估->再调整[8] - **iMCoT(交错多模态思维链)**:将视觉反馈插入推理循环,打破黑盒,每执行一步工具(如调整色温)即生成中间渲染图,并基于当前视觉状态动态规划下一步操作[8] - **SEPO(协同编辑者-评估者策略优化)**:让模型在训练中分饰编辑者与评估者两角,形成协同进化,编辑者为获高分需提升修图质量,评估者为精准打分需提升鉴赏能力[10] - **选择性损失掩码机制**:为防止模型通过生成“满分”文本作弊,设计了SLM机制,迫使模型只能依靠推理和工具使用过程来赢得高分[10] - **On-Policy Reflection(策略内反思)**:当模型偶然修出好图(高分轨迹)而此前尝试失败(低分轨迹)时,系统会捕捉对比,并引入“导师模型”分析失败原因,生成反思数据用于微调,使模型学会“自救”[11][12] 硬核工程:数据集与训练 - **ArtEdit数据集**:为支撑系统从零构建,包含170K专业样本,覆盖10大类摄影场景,完美映射Adobe Lightroom的200+个参数,并提供修图轨迹与人类专家评分的双视角数据[14][15] - **三阶段课程学习**:训练采用渐进式课程,包括冷启动(监督微调)以学会工具使用和语法,以及协同进化(强化学习/SEPO)阶段,让模型在自我探索中通过“左右互搏”提升上限[14][15] 实验结果与性能表现 - **ArtEdit-Bench评测统治力**:在评测中,JarvisEvo的斯皮尔曼等级相关系数达到0.7243,皮尔逊线性相关系数达到0.7116,均超过包括Gemini-2.5-Flash在内的其他模型[18] - **内容保真度**:相比商业模型Nano-Banana,L1/L2误差降低了44.96%,意味着修图时不会破坏原图画质细节[21] - **人类偏好**:在盲测中,JarvisEvo取得了49%的胜率,远超Nano-Banana的28%[21] - **审美对齐**:JarvisEvo对图片质量的打分与人类专家的相关性超过了Gemini-2.5-Flash[21] - **细粒度专业调色优势**:得益于深度意图理解、多模态推理及自我反思闭环,在处理复杂修图需求时展现出超越当前所有商业及开源AIGC模型的显著优势[23] - **与OpenAI X Adobe PhotoShop对比**:在指令遵循和修图审美方面,JarvisEvo表现明显更好[27] 意义与前景 - **通用范式验证**:JarvisEvo的意义远超图像编辑,它验证了一种“执行者-评论家协同进化”的通用范式,该方法可复用到复杂代码生成、数学推理、机器人控制等需要长程规划的领域[29] - **智能体进化方向**:标志着智能体正从“听话的执行者”向“会反思的创作者”迈进[30]
从「会表演」到「更会演」:KlingAvatar2.0让数字人拥有生动灵魂
机器之心· 2025-12-24 11:41
产品发布与技术升级 - 快手可灵团队正式发布KlingAvatar2.0技术报告,该模型已在可灵平台全量上线,支持用户体验 [1] - 新一代数字人拥有更丰富的情感层次、更精准的多角色互动、对复杂文本指令的深度理解能力,并支持长达5分钟的视频生成 [1] 核心技术突破 - **时空级联框架**:创新性提出时空级联框架以解决长视频生成质量衰减问题,通过“智能蓝图生成”和“渐进式增强”技术,支持生成分钟级长视频并保持身份一致性与故事连续性 [4][5][7] - **共推理导演系统**:该系统由音频专家、视觉专家和文本专家组成,通过多轮对话协作解决模态冲突,将模糊指令转化为详细的镜头级故事线 [8][11] - **多角色精准控制**:通过身份特定多角色控制技术,利用深度DiT特征实现角色掩码预测,确保每个角色能被独立的音频流精准驱动,避免了多角色视频中的“张冠李戴”问题 [9][11][12] 性能表现与实验结果 - 在涵盖300个高质量测试案例的评测中,KlingAvatar2.0在情感表达细腻度、动作协调自然度及细节处理精致度上均有显著提升 [15] - 与竞品相比,KlingAvatar2.0整体效果相比HeyGen提升26%,相比KlingAvatar1.0提升73%,相比OmniHuman-1.5提升94% [16] - 在文本响应和运动表现力方面,其指令理解能力和生动性也大幅超越竞品 [16] 行业影响与意义 - 数字人技术的持续迭代正在降低行业创作门槛并提升制作标准 [18] - 该技术在电商直播、娱乐内容制作、在线教育、企业服务等领域的规模化应用已成为趋势 [18] - 技术的进步使AI从执行指令的工具,进化为能够理解人类表达艺术、传递情感并创造触动人心的视听体验的载体 [18]
广电绝地反击!揭秘多彩新媒「不烧钱」的AI生存法则
机器之心· 2025-12-24 11:41
行业背景与挑战 - 传统广电行业面临深刻生存危机 外部竞争压力加剧 家庭智能语音设备渗透率已突破68% 短视频平台日均占用用户时长高达2.8小时 用户注意力发生结构性转移[1] - 行业基本面受到直接冲击 2024年省级IPTV用户平均ARPU值已不足15元 较三年前下降22%[1] - 危机的根源在于传统广电服务模式难以匹配用户“用电视”的新需求 在交互体验、内容更新速度与服务功能等方面存在短板[1] - 政策环境为转型提供支持 国家“十四五”规划强调“推进媒体深度融合” “人工智能+”行动及文化数字化战略为行业智能化转型提供方向引领[1] - 借助AI技术推动系统性转型已成为行业寻求突破的必然方向[1] 多彩新媒的战略选择 - 公司战略放弃“大而全” 聚焦三个核心环节以应对挑战[3][4] - 首要战略是守牢“入口权” 通过智能播控强化对大屏主导权的掌控 防止用户流失[4] - 其次是激活“服务值” 意图将电视从“内容播放窗口”转变为能提供本地生活服务的“家庭服务站” 以增强用户粘性[4] - 最后是寻找“新增量” 尝试利用AIGC工具开辟内容创作新收入 为传统盈利模式寻找增量空间[4] - 该战略反映了预算有限型运营商的典型思路 优先确保核心业务基本盘稳定 同时以较低成本在关键环节进行赋能和试探[5] 技术路径与架构 - 技术实现采用分层架构与“轻量化”实践 结合成熟外部能力而非从零搭建[6][7] - 在模型层面 底层拟采用豆包、通义千问、DeepSeek等轻量化模型控制成本 并孵化AI动画、视听、教育三大行业模型支撑垂直场景[7] - 在应用层面 计划构建多个平台 智能播控平台预期意图识别准确率达98%[7] - 智能体应用平台规划整合MCP、A2A、RAG等技术 集成六大服务模块 支持23种方言覆盖[7] - AIGC创作者平台有望实现“文生图60秒、文生视频120秒” 预计动画制作效率提升3倍[7] - 新一代AI搜推平台采用“兴趣泛化+探索性推荐”双引擎机制 旨在打破“信息茧房”实现“千人千面”[7] 场景落地:对内运营与生产提效 - 公司AI实践围绕对内提效、对外服务与生态拓展三个维度展开[9] - 对内维度旨在提升运营与生产效率[10] - 在内容生产端 计划依托智能海报、智能编码等工具压缩人工成本 打造全流程自动化生产能力[10] - 智能海报支持“文生图”、“图生图”双模式 可根据不同场景自动输出多格式海报[10] - 智能编码计划构建智能编码引擎 实现媒资编码全流程自动化与动态优化 根据内容类型和网络环境智能调节码率[10] - 在运营决策端 希望通过智能营销和智能问数系统 推动运营从“经验驱动”向“数据辅助决策”转型[10] - 智能营销规划构建全触点营销体系 依托CDP平台生成用户全息画像 实现自动化营销闭环[11] - 智能问数基于NLP与数据中台技术 打造智能问数系统 打破数据查询壁垒 实现自助式数据分析与精细化运营[11] 场景落地:对用户服务体验升级 - 该维度旨在实现用户从“被动看电视”到“主动用电视”的体验跨越 重新定义电视服务价值[12] - 面向用户层面 强调通过自然语言指令降低使用门槛 如支持口语化指令进行内容检索[13] - 针对老人和少儿设计适配性终端与服务 如面向老年人的设备支持方言交互、亲情电话一键拨打 面向少儿的设备整合海量题库资源[15] - 计划通过接入贵州“两码一宝”本地服务 将电视屏幕延伸为民生事务办理入口 支持电费查询、火车票预订等功能 以提升使用频次与实用价值 增强用户粘性[15] 场景落地:B端生态输出与行业赋能 - 公司探索将沉淀的AI能力转化为对外赋能[16] - 在B端计划走“轻资产输出”模式 向广电、媒体、文旅等关联行业进行轻量化输出 例如为景区定制智能导览模型、为融媒体提供AIGC工具[16] - 在内容创新上 规划以动漫等垂类为切入点 提供智能脚本生成、自动剪辑等创作工具 并搭建涵盖“创作扶持-内容审核-分发变现”的全流程服务体系 吸引PGC/UGC创作者入驻[16] - 这些举措体现了公司从内部闭环服务向开放协同生态延伸的意图 试图通过能力外溢与生态共建探索业务新增量[18] 生态协同策略 - 公司AI路径强调“内外联动”的务实生态构建策略[19][20] - 对外策略重心在于借助外部优势资源 技术层倾向与互联网大厂进行平台共研共建以控制研发风险与成本[20] - 在内容与服务层面积极对接行业头部版权方 如整合三甲医院健康数据与K12教育资源以补足自有生态[20] - 用户触达层面 通过运营商套餐预装终端 借助微信生态实现“小程序选剧-电视播放”跨屏联动等方式延伸服务场景[20] - 对内强调构建“NLU语义理解-多模态交互-推荐引擎-AIGC生成”核心技术栈 将方言识别、垂类模型等20余项能力通过API开放 构建“开发者-合作伙伴-终端用户”共赢生态[20] 转型价值展望 - 公司AI转型实践为同行业者提供了一份聚焦于可行性的区域转型样本[21][22] - 在商业层面 计划沉淀800万条影音数据、12万条健康医疗数据等高价值资源 为后续增长储备核心资产[22] - 在行业层面 探索建立智能播控新标准 推动行业从“内容分发”向“服务运营”转型 为全国地方广电提供可复制的“AI+广电”参考方案[22] - 在社会层面 适老适幼终端开发以及本地生活服务的衔接 体现了技术普惠与人文关怀的导向 有助于缩小数字使用鸿沟[22] - 广电行业的智能化转型是一场围绕生存空间与价值重定义的系统性变革[23] - 公司实践样本呈现的是一种在资源与能力约束下寻求可行路径的务实思路 以用户真实场景与业务痛点为牵引 通过分阶段、场景化的AI赋能逐步构建可持续演进的能力体系[23] - 该路径为众多正处于迷茫期、寻求转型起点的区域运营商提供了具象化参考[25]
当世界模型不止「视频」该如何评估?WorldLens提出实用化评估新框架
机器之心· 2025-12-23 17:36
世界模型评估的现状与挑战 - 当前世界模型研究正从“能生成”走向“能用”,但评估体系滞后,传统视频质量指标(如LPIPS、FVD)无法衡量几何自洽、多视角一致、时序稳定、行为可执行等决定模型能否服务于仿真、规划、数据合成和闭环决策的关键世界属性[2] - 评估体系的不统一导致不同模型结论难以对齐,失败模式难以复现与归因,已成为制约世界模型规模化推进的瓶颈[8][10] WorldLens评测框架概述 - WorldLens是领域内首个体系化的世界模型评测框架,从生成、重建、指令跟随、下游任务和人类偏好五个互补维度进行综合评估[3] - 该框架旨在将评估对象从“视频”升级为“世界”,提供一套能覆盖世界属性、诊断失败来源、并在不同模型间公平对比的评测协议[10] - 评测工具包(EvalKit)已公开,包括论文、项目主页、开源代码库和官方排行榜[5][6] 评估维度一:生成 - 评估重点超越“帧级真实”,拆解到更贴近世界属性的层面,包括检查关键参与者(如车辆、行人)的外观与语义是否对齐[15] - 在时序层面检查对象身份稳定性,避免纹理闪烁、形状漂移等异常[15] - 将几何与多视角一致性置于中心,通过估计深度观察几何平滑演化,并通过跨视角匹配检验生成多视角世界的能力[15] 评估维度二:重建 - 核心是检验生成序列能否被还原成一个稳定的4D场景,并在新视角下仍然成立[12] - 方法是将生成视频统一提升为4D Gaussian Field,检验其空间与时间一致性[16] - 新视角评测能暴露典型失效模式,如“floaters”(悬浮、不连续的几何碎片),揭示感知真实不等于几何真实[16] 评估维度三:指令跟随 - 评估目的是测试生成世界是否为规划器提供了足够稳定、可信的可行动线索,而非给规划器打分[19] - 同时进行开环与闭环评测,闭环评测会显著放大生成世界中肉眼难以察觉的不一致,导致碰撞、越界、漂移等问题[19] - 对于服务决策与控制的世界模型,闭环评测是“必要条件”而非“可选项”[19] 评估维度四:下游任务 - 评估世界模型作为数据引擎的实用性,检验其生成数据对真实感知与预测模型的帮助或负迁移效应[12][20] - 直接将生成数据用于评测多个真实下游任务,包括BEV地图分割、3D检测、3D跟踪与语义Occupancy预测等[20] - 研究发现,一些画面漂亮的模型在下游任务上可能出现显著退化,性能降幅可达30–50%,表明纹理质量提升不能替代结构与时间层面的对齐[20] 评估维度五:人类偏好 - 构建了大规模人类偏好数据集WorldLens-26K,包含26808条样本,每条均有数值评分和解释异常的自然语言[22] - 利用该数据集训练自动评估代理WorldLens-Agent,使其能输出与人类偏好一致的评分及可解释理由,实现可扩展的主观评估[22] - 这一步将主观判断转化为可学习、可迭代的信号,为未来用偏好对齐优化世界模型提供了路径[23] 核心评测发现与洞察 - 不同评估维度间存在明显能力断层,生成指标领先的模型未必能在重建与新视角上表现良好,开环表现尚可的模型在闭环中往往迅速失稳[26] - 几何与时序稳定性是贯穿多个维度的“共同瓶颈”,几何不稳会表现为新视角下的floaters,并在闭环中放大为事故,进而拖累下游任务表现[27][28] - 闭环评测会放大缺陷,任何微小的不一致都会持续积累,最终导致碰撞、偏航与路线失败,这对用于仿真与安全测试的模型是直接提醒[29] - 人类偏好与自动指标既相关又不完全一致,人类解释能直接指出几何异常、物理违背等关键失败原因,为自动评估提供了训练依据[31] 行业发展趋势与意义 - 世界模型的发展正从“生成好看的片段”走向“构建可交互的世界”,相应的评估必须从“视频质量”升级为“世界属性”[34] - WorldLens的贡献在于提供了一套可执行的共同语言和协议,覆盖从视觉到几何、从功能到偏好的完整链路,为世界模型发展的“下半场”奠定了基础[34] - 未来世界模型的竞争将更侧重于能否生成一个在几何、物理、行为与人类判断上都经得起检验的世界[34]
都是TOP人才!跑遍全球,和机器之心共聚AI学术顶会
机器之心· 2025-12-23 17:36
2025年活动回顾与成果 - 2025年AI技术加速发展,多模态大模型、智能体系统、基础理论突破和产业应用深化等技术跃迁重塑未来轮廓[1] - 公司围绕ICLR、CVPR、ACL、ICML、IROS、EMNLP、NeurIPS等AI顶会,跨越北京、新加坡、维也纳、温哥华、圣地亚哥等8座城市,落地11场活动,旨在通过人与人的连接和面对面对话追踪前沿[1] - 活动体系由“论文分享会”与“人才Meetup”两大系列活动构成,旨在打造有温度、有深度、有价值的AI交流生态圈[4] - 在北京举办的ICLR、CVPR、ACL、NeurIPS论文分享会,共邀请100+位论文作者分享最新成果,并对多模态、Agent、视频生成、大模型推理等热门话题进行深度解读与探讨[6] - 在新加坡、维也纳、温哥华、纳什维尔、圣地亚哥等地举办“云帆”系列AI Talent Meetup,在杭州、苏州发起“TalentAI50”闭门酒会,营造自由聚焦的交流场景,促成了新友初识、老友重逢以及合作意向的萌发[6] 2025年具体活动日程 - 4月24日在新加坡举办云帆·ICLR 2025 AI Talent Meetup[7] - 6月8日在北京举办CVPR 2025论文分享会[7] - 6月11日在美国纳什维尔举办云帆·CVPR 2025 AI Talent Meetup[7] - 7月15日在加拿大温哥华举办云帆·ICML 2025 AI Talent Meetup[7] - 7月19日在北京举办ACL 2025论文分享会[8] - 7月30日在奥地利维也纳举办云帆·ACL 2025 AI Talent Meetup[8] - 10月22日在杭州举办机器之心·IROS 2025 TalentAI50 Meetup[8] - 11月6日在苏州举办机器之心·EMNLP 2025 TalentAI50 Meetup[8] 2026年活动规划 - 2026年规划覆盖ICLR、CVPR、ACL、ICML、ECCV、CoRL、IROS、NeurIPS等顶会的全新系列活动[10] - 除“论文分享会”与“人才Meetup”外,新增设「AI顶会Happy Hours」系列,期待从北京辐射全球更多城市[10] - 4月ICLR会议期间,计划在北京、巴西里约热内卢、上海举办学术论文分享会、AI Talent Meetup、AI Happy Hours[11] - 6月CVPR会议期间,计划在北京、美国科罗拉多州丹佛市、上海举办学术论文分享会、AI Talent Meetup、AI Happy Hours[11] - 7月ACL会议期间,计划在北京、美国加利福尼亚州圣地亚哥、上海举办学术论文分享会、AI Talent Meetup、AI Happy Hours[11] - 7月ICML会议期间,计划在韩国首尔、北京、上海举办AI Talent Meetup、AI Happy Hours[11] - 9月ECCV会议期间,计划在瑞典马尔默、北京、上海举办AI Talent Meetup、AI Happy Hours[11] - 10月CoRL会议期间,计划在美国得克萨斯州奥斯汀、北京、上海举办AI Talent Meetup、AI Happy Hours[11] - 10月IROS会议期间,计划在美国宾夕法尼亚州匹兹堡、北京、上海举办AI Talent Meetup、AI Happy Hours[11] - 12月NeurIPS会议期间,计划在北京、海外、上海举办学术论文分享会、AI Talent Meetup、AI Happy Hours[11] 公司倡议与联系方式 - 公司诚邀志同道合的伙伴加入2026年旅程,共建「机器之心2026学术顶会活动」[13] - 目标合作伙伴包括希望链接全球AI人才的科技企业、希望提升影响力的科研机构或高校、以及关注前沿趋势的投资机构[14] - 提供了具体的联系人陈女士及其电话18206218056与邮箱chenyinyi@jiqizhixin.com[14]
告别高昂重制成本!港科大广州、快手可灵发布立体视频转换单步推理新方案
机器之心· 2025-12-23 15:06
行业背景与痛点 - 3D内容需求随VR头戴设备、智能眼镜等硬件发展而增加,但传统3D内容制作成本高昂、过程复杂[2] - 以《泰坦尼克号》3D重制为例,制作成本高达1800万美元,动用300名工程师,耗时60周[2] - 现有自动化“单目转双目”技术效果不佳,存在视差错误、无法处理复杂镜面场景等问题,且转换速度极慢,转换一段5秒视频需15至70分钟[2] 技术方案与突破 - 快手可灵团队与香港科技大学(广州)团队联合提出全新解决方案StereoPilot,这是一个基于生成式先验的统一高效立体视频转换模型[3] - 该模型能在11秒内将一段5秒的2D视频转换为高质量3D立体视频,在所有定量指标上超越当前SOTA方法[3] - 模型采用“Diffusion as Feed-Forward”架构,将时间步固定为极小值,利用预训练视频扩散模型强大的生成先验,实现单次前向传播预测目标视图,从而将5秒(81帧)视频的转换时间缩短至11秒[34] - 引入可学习的Domain Switcher模块,使模型能根据用户需求,自由控制生成Parallel或Converged格式的3D视频,实现了真正的格式统一[34] - 设计了循环一致性损失,以强制模型在视角转换过程中保持信息不丢失,提升了目标视角与源视角的几何一致性[34] 传统技术瓶颈分析 - 传统主流2D转3D方案采用“深度估计-重投影-补全”多阶段流水线,存在三大致命缺陷[8] - 缺陷一:误差累积。串行流程导致深度估计错误会在后续重投影步骤中被放大,引发几何畸变和伪影[8] - 缺陷二:深度歧义。传统深度估计算法在同一像素点只能预测一个深度值,无法正确处理镜子等反光表面中物理深度与成像深度不同的场景,导致3D观感违和[9][13] - 缺陷三:格式不一致与几何假设失效。传统方法假设深度与视差存在简单反比关系,这只对平行摄像机配置有效,而3D电影工业标准是汇聚摄像机配置,导致视差计算错误[15] 3D数据格式澄清 - 3D视频数据主要有两种格式:平行格式与汇聚格式[17] - 平行格式中,左右相机光轴完全平行,视差与深度成简单反比关系,常见于计算机视觉数据集[19] - 汇聚格式中,左右相机光轴向内旋转汇聚于一点,产生“零视差平面”,是3D电影工业的标准格式,深度与视差之间不存在简单反比关系[19] - 先前研究工作未对两种格式进行明确区分,导致不合理的模型训练与测试对比[22] 数据集构建 - 团队构建了UniStereo数据集,这是业界首个同时包含Parallel和Converged两种格式的大规模3D立体视频数据集[24] - 数据集包含两部分:Stereo4D (Parallel) 包含58,000个5秒的真实世界平行视角视频片段;3DMovie (Converged) 从142部高质量3D电影中精选处理了48,000个5秒的汇聚视角视频片段[28] - 作者将公开Parallel格式的所有数据和Converged格式数据的处理流程[26] 性能表现与验证 - 在UniStereo基准测试中,StereoPilot在PSNR、SSIM、LPIPS等所有核心定量指标上均显著优于StereoDiffusion、StereoCrafter、SVG、Mono2Stereo等现有SOTA方法[31] - 具体指标上,在Parallel格式数据上,StereoPilot的SSIM为0.861,MS-SSIM为0.937,PSNR为27.735,LPIPS为0.087;在Converged格式数据上,SSIM为0.837,MS-SSIM为0.872,PSNR为27.856,LPIPS为0.122[32] - 在推理速度上,StereoPilot仅需11秒,而同类方法如StereoDiffusion需60分钟,SVG需70分钟,Mono2Stereo需15分钟[32] - 可视化对比显示,StereoPilot预测结果具有更准确的视差和更高的视觉质量,并能有效处理复杂的镜面场景,这是其他方法从原理上无法做到的[33] - 消融分析验证了Domain Switcher和Cycle Consistency模块的有效性,它们为模型在测试集上提供了更好的泛化性能与一致性[36][41][42] 行业影响与意义 - StereoPilot实现了快速高质量的端到端2D视频转3D视频,打破了依赖昂贵人工或低效深度重投影的技术桎梏[43] - 该技术为VR/AR内容创作、老电影修复以及沉浸式视频体验提供了新的可能性[43] - 团队首次阐明parallel和converged两种3D立体视频数据格式,并构建大规模统一数据集,澄清了该领域的训练与测评标准[43]
LeCun和哈萨比斯「吵」起来了:「通用智能」到底存不存在?
机器之心· 2025-12-23 15:06
文章核心观点 - 文章报道了人工智能领域两位顶尖专家Yann LeCun与Demis Hassabis就“通用智能”概念展开的公开辩论 这场辩论反映了对人工智能发展路径的两种不同研究范式[1][10][38] LeCun的核心论点:反对“通用智能”概念 - Yann LeCun认为“通用智能”这个概念是“彻头彻尾的胡说八道”和“无稽之谈” 他认为人类智能是高度专用化的 人类在许多任务上表现差劲 而动物在许多领域胜过人类[3][4][5] - 他认为人类自认为通用是一种“幸存者偏差”的错觉 因为人类只能意识到自己能构想出的问题 而忽略了海量位于认知盲区之外、根本无法构想的任务[3][4] - 他从数学和效率角度论证 认为人类大脑是极度专业化的 视神经拥有100万根神经纤维 视觉任务是从1E6比特到1比特的布尔函数 在所有可能的此类函数中 大脑能够实现的比例微乎其微[25] - 他指出 人脑约有1E11个神经元和约1E14个突触 指定整个连接组所需的总比特数最多为3.2E15 这意味着人脑可表示的布尔函数总数最多为2^(3.2E15) 与所有可能函数总数2^(2^1E6)(约2^(1E301030)或10^(3 x 1E301029))相比是极小的数字[25][26][27] - 他强调理论上的可计算性(如图灵完备)不等于实际效率 在资源受限下 人脑处理绝大多数计算问题的效率极低 表现是高度次优的[23][25] Hassabis的核心论点:支持“通用智能”概念 - Demis Hassabis认为LeCun混淆了“通用智能”与“普适智能” 他认为人类大脑是“目前在宇宙中已知的最精妙、最复杂的现象” 并且具有极高的通用性[12][13] - 他的观点基于通用计算理论 认为人类大脑以及AI基础模型都是近似的图灵机 只要给予足够的时间、内存和数据 从理论上讲就能够学习任何可计算的事物[12][14] - 他以人类创造力为例反驳LeCun 指出人类大脑的出厂设置是为了“采集和狩猎” 但却用这套硬件发明了国际象棋并造出了波音747 这证明了其令人惊叹的通用性[12][14] 争论的本质与行业意义 - 两位专家的争论看似围绕词汇定义 实质上反映了对AGI发展路径的两种不同判断和研究范式[38] - Hassabis的立场更接近“通用计算主义” 关注通用架构在规模化后的潜力上限 认为能力边界可以随算力、数据和训练时间的扩展而持续外推[38] - LeCun则强调实际可实现性与效率约束 认为智能系统必须在有限资源下运行 必然高度依赖结构、归纳偏置和与世界相匹配的表征方式 应关注构建能高效理解和预测现实世界的“世界模型”[38] - 这场分歧是两种研究范式的差异 在AGI实现之前 这两条路径可能会长期并行并相互借鉴 争论本身是推动领域前进的重要动力[38][39] 其他行业专家的观点 - 谢赛宁支持LeCun的观点 推荐了Frans de Waal的著作《Are We Smart Enough to Know How Smart Animals Are?》 认为人类应对智能抱有更谦卑的态度[29][30] - 黑天鹅理论之父Nassim Nicholas Taleb从哲学角度支持LeCun 认为任何智能都是“领域特定”的 受进化和结构束缚[33] - 埃隆·马斯克则简洁地表示支持Hassabis的观点[36]
仅需15%全量Attention!「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了
机器之心· 2025-12-23 12:15
行业核心问题:长序列推理的成本与效率瓶颈 - 在当前主流的Full Attention机制下,计算开销会随着输入长度平方增长,导致处理长序列时“又贵又慢”,成为大模型应用中最昂贵的奢侈品 [1] - 尽管各大模型厂商竞相推出更长的上下文窗口(如128K),但在计费上长文本显著更贵,且实际落地产品常需将用户输入变短,这凸显了长序列处理在成本与性能上的核心矛盾 [1] 现有技术路线及其局限性 - 业界主流的Attention压缩方案分为Linear Attention和Sparse Attention两种 [8] - Linear Attention(以Qwen-Next和Kimi-K2为代表)可将存储代价压缩到O(n),计算代价压缩到O(n),但长序列下的信息召回能力显著弱于Full Attention,常需混合使用,限制了性能与加速收益 [10] - Sparse Attention通过稀疏化优化计算,实践中能达到接近**90%**以上的稀疏度,已被DeepSeek-V3.2采用,但其算子与调度设计复杂,影响工程生态的通用性与可维护性 [8][10] - Sliding Window Attention(SWA)因其简单和可规模化复用,被gpt-oss和MiMo等项目采用,并非仅是权宜之计 [10] RTPurbo解决方案:核心原理与假设 - 阿里RTP-LLM团队提出非侵入式的后训练压缩方案RTPurbo,在不损失模型效果的前提下,实现了Attention计算**5倍**压缩 [1][4] - 其核心假设源于对LLM注意力模式的观察:绝大多数Attention Head天然偏好局部信息,只有极少数“长程头”能在长文本中稳定定位并召回关键关联信息 [10] - 类比人类阅读写作,LLM处理长文本时,先由少量Head从长上下文中“召回”相关信息,再在更局部的上下文范围内完成推理输出 [10][11] - 基于此,RTPurbo采用Headwise级别的混合压缩算法,仅保留关键长程Attention Head的全局信息(使用Full Attention),对剩余冗余Head直接丢弃远程Tokens(使用SWA) [4][7] 技术验证与性能表现 - 对比试验表明,仅**15%**的长程头使用Full Attention配合**85%**的Head使用SWA(方案一),其长文能力显著优于反向配置的方案二(后者保留**85%**的KV cache) [12][13] - 在2Wikimqa任务上,原模型(100% FULL)得分为**35.75%**,方案一为**35.40%**,方案二降至**32.58%**;在Passage_retrieval_en任务上,原模型与方案一均为**100%**,方案二降至**62.25%** [13][14] - 未经微调,方案一在Ruler-32k和Ruler-64k任务上表现几乎无损,分别为**96.06%**和**94.44%**,与原模型(**95.15%**和**94.57%**)相当 [14] - 但在某些特定任务(如Hotpotqa、Musique)上,未经微调的压缩模型会出现性能退化,表明需要额外训练来消化注意力模式切换带来的扰动 [14][15] 训练策略:自蒸馏解决数据与能力保留难题 - 直接使用长文SFT/预训练语料对RL后模型进行续训,会导致过拟合、灾难性遗忘,并损伤短文本任务能力,例如在MMLU-Pro上分数从**72.54%**降至**67.28%** [17][18] - RTPurbo采用“模型自蒸馏”作为关键训练策略,让压缩后模型对齐原模型输出,仅需约**1万条32k**长度的预训练语料(训练时间小时级),即可使长文任务表现与原模型持平 [19] - 该策略仅对模型自身输出进行对齐,避免依赖特定领域数据,从而确保短文本下游指标基本无损 [24] 压缩效果与通用能力保持 - 在长文本测试集Longbench上,压缩后的Qwen3-Coder-30B-A3B-Instruct平均得分达**52.02%**,略高于原模型的**51.20%**;Qwen3-Coder-Plus压缩后平均得分为**50.03%**,与原模型**49.82%**相当 [22] - 在Ruler测试集上,压缩模型在32k和64k长度下的平均得分分别为**92.31%**和**88.57%**,与原模型持平 [22] - 在多项短文本通用Benchmark上,采用自蒸馏训练的模型未出现性能衰减:例如Qwen3-Coder-30B-A3B在MMLU PRO上得分从**70.08%**微升至**70.55%**,在HumanEval上从**95.10%**升至**96.34%** [23] 工程优化与极致性能 - 为解决Headwise混合计算模式导致的负载不均衡问题,RTP-LLM在算子层与框架层做了针对性优化 [30][31] - 优化包括:对Full Attention Head进行PTX指令级优化、采用稀疏度感知的动态负载均衡调度、实现高效的SWA算子以避免冗余访存、以及用Context Parallel替代Tensor Parallel以提高GPU利用率 [34][35] - 通过综合优化,RTP-LLM能将Attention稀疏的理论收益稳定转化为端到端加速,在**256k**长序列下实现单算子最高**9倍**加速(图中仅使用**15%**的Full Attention) [35] 项目影响与开源 - RTPurbo被定位为一套具有良好可迁移性和通用性的长序列加速方案,可为更大规模、更多架构的LLM提供高性价比的推理加速路径 [25] - RTP-LLM是阿里巴巴智能引擎团队自研的高性能大模型推理引擎,支持了淘宝、天猫、高德、饿了么等核心业务的大模型推理需求 [37] - 项目模型与推理代码已发布至Huggingface和ModelScope平台,项目已在GitHub开源 [5][9][38]
VideoCoF:将「时序推理」引入视频编辑,无Mask实现高精度编辑与长视频外推!
机器之心· 2025-12-23 12:15
视频编辑行业技术痛点与现有方案 - 现有视频编辑模型面临精度与通用性的两难困境:专家模型精度高但依赖用户提供繁琐的Mask,通用上下文学习模型虽免Mask但在处理复杂空间关系时定位不准[7] VideoCoF框架核心创新 - 核心灵感源于大语言模型的思维链,提出Chain of Frames机制,将视频编辑过程重构为“看-推理-编辑”三个阶段,使模型能主动建立编辑指令与画面区域的对应关系,实现无需Mask的高精度编辑[5][6][8] - 引入独特的时序RoPE对齐策略,巧妙对齐原视频与编辑视频的时间索引,并将推理帧时间索引设为0,实现了“训练短视频,推理长视频”的能力,支持远超训练长度的视频处理且保持动作流畅[11][16] 模型性能与数据效率 - 模型仅使用50k视频对进行微调,数据量仅为基线模型ICVE的1/20,后者依赖100万视频预训练加15万微调数据[12][14][17] - 在多项测评中取得SOTA效果:指令遵循得分高达8.97,显著优于ICVE的7.79和VACE的7.47;编辑成功率高达76.36%,大幅领先商业模型Lucy Edit的29.64%和ICVE的57.76%[14][18][19] 关键技术验证与设计细节 - 消融实验证明显式时序推理是关键:引入CoF机制后,指令遵循能力提升近1分,成功率提升10%以上[20][22][24] - 推理帧格式设计至关重要:采用透明度渐变的灰色掩码作为推理帧,相比静态红/黑掩码,将指令遵循得分从7.5/7.8大幅提升至8.97[21][25][26] 应用场景与行业影响 - 展现了强大的通用编辑能力,支持多实例移除、物体添加、多实例物体替换及局部风格迁移等多种任务[27][29] - 该工作证明了“更好的推理能力优于更多的数据”,为视频生成与编辑研究提供了低成本、高性能、支持长视频的新思路[28]