Workflow
机器之心
icon
搜索文档
14B规模竟也能单卡实时生成视频?多亏这个强大的开源底座
机器之心· 2026-03-07 12:20
行业技术趋势 - 春节期间Seedance 2.0爆火,再次将视频生成推上风口[1] - AI视频生成社区共识正愈发清晰:SOTA视频生成能力正快速向以Diffusion Transformer(DiT)为核心的统一范式收敛,模型比拼从基础画质堆料转向更高层级的语义理解深度与多模态协同效率[6] - 视频生成领域正迎来属于自己的“视觉版LLaMA时刻”,一个高性能、低成本且自主可控的视频大模型底座正加速演化为产业侧可复用的视频生成基础设施[13][14] 字节跳动Helios模型 - 字节跳动携手北大、安努智能和Canva共同开源了具备实时生成能力的视频模型Helios家族,包含Helios-Base、Helios-Mid与Helios-Distilled三个版本,全面覆盖T2V、I2V、V2V及交互式生成任务[1] - Helios模型以14B参数量实现高达19.5 FPS的单卡生成速度,做到了“质量”与“速度”齐飞[1] - 项目发布首日即实现对昇腾NPU的Day-0级别支持,并同步兼容Diffusers、vLLM-Omni、SGLang-Diffusion等主流推理框架[2] - Helios成功登顶Hugging Face Daily Papers,在GitHub上发布一两天后star数已超过520[3] - Helios模型的核心开发团队是北京大学袁粒课题组,该模型与团队之前开源的Open-Sora Plan(OSP)项目技术栈高度同源,与UniWorld-OSP2.0存在三分之一到二分之一的代码复用[3] - Helios是对其核心技术的一次有效验证,性能比OSP团队此前基于UniWorld-OSP2.0开发的OSP-RealTime 14B更胜一筹[4] 北京大学UniWorld-OSP2.0模型 - Open-Sora Plan团队推出的UniWorld-OSP2.0是业界首个开源的超百亿级(21B)视频生成大模型,也是首个实现“双原生”(昇腾原生及自回归+Diffusion混合架构)统一范式的大模型体系[6] - 在VBench-I2V基准测试中,UniWorld-OSP2.0在多项关键指标上表现优越,其整体表现已稳步进入开源阵营第一梯队[9] - 具体在VBench-I2V基准上,UniWorld-OSP2.0(14B)在主体一致性(96.21)、背景一致性(97.71)、运动平滑度(98.47)、动态程度(46.10)、美学成像质量(66.55)等指标上超越Wan2.1等模型[10] - Open-Sora Plan项目已累计获得约1.2万GitHub star和千万级下载量,多次登上Trending榜单,在实际代码活跃度上进入开源视频模型第一梯队[11] - 目前已有包括字节、腾讯WXG、阿里达摩院、小红书、哔哩哔哩等多家团队基于该框架展开二次开发,海外多家AI公司亦同步跟进[14] - 团队宣布将进一步开源12类风格化数据集及完整模型权重[14] UniWorld-OSP2.0技术架构与创新 - 整体架构由三大核心组件构成:因果变分自编码器(Causal VAE)、VLM增强的多模态条件模块、以及扩散Transformer(DiT)主干网络,这套“VAE+VLM+DiT”架构构成了其强大性能的基石[19] - 一大核心技术优势是FlashI2V机制,旨在解决图像生成视频(I2V)中的“条件图像泄漏”问题,该问题会导致生成视频动作僵硬或画面崩坏[20][21] - FlashI2V通过两个关键设计协同发力:潜空间偏移(Latent Shifting),通过修改流匹配分布隐式整合条件图像信息,减少去噪器过度依赖;傅里叶引导(Fourier Guidance),通过傅里叶变换提取图像高频特征以校准细节[27] - FlashI2V使得模型在多项I2V关键指标上成功超越了Wan2.1,并取得了最低的域外FVD[30] - 两大主要创新:一是引入冻结的预训练VLM(如7B参数的Qwen2.5-VL)作为多模态特征提取器,并通过轻量级Adapter与DiT对齐,大幅提升对细粒度信息的控制精度[33][34][35][36];二是推出I2SV(图像到风格化视频)范式,构建了包含12种典型艺术风格的数据集,实现一步输出时间连续且符合语义的风格化视频[38][40] - 在MMMU、MM-vet等视觉理解基准测试中,具备VLM加持的UniWorld-OSP2.0取得了优秀成绩(如MMMU 58.6, MM-vet 67.1)[37] OSP-RealTime 14B与实时生成 - 袁粒课题组基于UniWorld-OSP2.0训练了OSP-RealTime 14B模型(Helios系列底层的核心技术),在单块昇腾Atlas A3系列产品上把文生视频帧率拉到了10 FPS,成为第一个真正接近“交互式视频生成”的开源级扩散架构[42] - OSP-RealTime 14B将长视频生成重新定义为无限的视频续写任务,通过时间维噪声latent的拼接策略,在窗口切换时保持运动连续性,实现时间上的无限延展[43][44] - 在生成加速上做了三个关键优化:将噪声latent的帧数从21帧降到9帧,实现平方级算力节省;采用多尺度分辨率策略,先低分辨率生成大结构再逐步细化;通过DMD蒸馏将扩散推理步数从50步压缩到4步[47] - 工程优化包括:采用特征缓存方案(Latents Cache),预计算并存储引导词特征,使多轮迭代训练时间缩短约30%,并释放20%的显存资源;模型全程在昇腾Atlas A3系列产品上完成训练与推理,深度融合了MindSpeed-MM套件的分布式训练等原生特性[49] - OSP-RealTime 14B让14B参数规模的模型进入实时区间,为互动视频、生成式游戏场景、实时虚拟世界等应用提供了算力基础[50] 生态与产业意义 - 支撑OSP系列项目的算力引擎指向了一套庞大的国产化算力生态——鲲鹏与昇腾算力[7] - 北京大学鲲鹏昇腾科教创新卓越中心的赋能和算力支持,使这些开源项目得以成为现实[6] - UniWorld-OSP2.0在昇腾算力平台上跑通了工业级视频生成闭环,依托昇腾底座定义了视频生成的“公共基础设施”[52] - 该项目为以昇腾为核心的国产智算生态提供了一份高价值的工程落地手册,解决了底层通信算子的精度误差与非并行切分层的推理崩溃隐患,开发者无需从零训练高耗能组件即可获得成熟工具链[52]
成本下降 90%后,Figure 的下一步是机器人「自己造自己」?
机器之心· 2026-03-07 10:30
文章核心观点 - 公司正将其人形机器人的核心技术栈从传统手写代码全面转向全栈端到端神经网络架构,并已实现全身强化学习控制,目标是从“房间尺度自主”向更大范围、未见环境中的持续自主运行推进 [5][6][10] - 公司通过设计优化、供应链管理和垂直整合等策略,已将其最新机器人型号的成本降低了90%,并制定了明确的规模化生产路径,目标年产5万台 [12] 01. Figure 为何删除十万行代码? - 公司正将机器人控制栈从手写代码全面转向全栈神经网络,早期系统曾有“几十万行”C++代码,在Helix 2阶段移除了剩余的约109,000行C++代码 [6] - 转向全栈神经网络的原因是,依赖代码启发式方法无法覆盖人形机器人所需的全身协调、操作与场景变化 [6] - 公司通过Keurig咖啡制作等连续任务验证了神经网络在双臂人形机器人上的有效性,这推动了整个技术栈向神经网络迁移 [7][8] - 在Helix 2中,公司集成了一个完全学习得到的全身强化学习控制器(内部称为System Zero,S0),实现了全身控制的神经网络化,而不再仅是上半身 [9] - 技术重点在于实现实时闭环控制,控制频率约在200Hz或“几百Hz”量级,使机器人能在环境变化中持续完成感知、推理和动作输出,而非执行预先录制的动作 [10] - 公司当前能力被概括为“房间尺度自主”(room-scale autonomy),下一步目标是从“一个房间”推进到“完整家庭”,并最终进入“未见过的家庭环境” [10] - 衡量系统成熟度的关键指标是人类介入频率,即机器人在连续任务中对人工协助的依赖程度 [11] 02 . 成本降了90%后,Figure下一步是年产5万台? - 公司通过设计优化、供应链管理和垂直整合等策略,已将其最新机器人型号Figure 03的成本降低了90% [12] - 公司制定了明确的规模化生产目标,计划实现年产5万台机器人的产能 [12] 03 . 进入家庭之前,Figure还要先跨过哪些商业化门槛? - 公司认为机器人从工厂环境进入家庭应用仍需时间,需要先克服一系列商业化门槛 [4] - 商业化路径包括在商业场景中实现持续运行、通过机队共享积累数据,以及将机器人引入内部制造产线等布局 [12]
用Rust重写OpenClaw,Transformer作者下场造了安全版「龙虾」
机器之心· 2026-03-07 09:18
文章核心观点 - 行业资深专家Illia Polosukhin因担忧OpenClaw存在严重的数据、隐私和资金安全风险,主导开发了以安全为核心设计的开源AI智能体运行时环境IronClaw [1][2][5] - IronClaw旨在成为安全、可审计的OpenClaw替代方案,其核心设计理念是通过架构隔离、加密存储和策略控制等手段,从根本上防止用户凭证泄露、提示词注入等风险,以推动AI智能体成为安全可靠的下一代互联网接口 [6][9][12] 项目背景与动机 - Illia Polosukhin作为Transformer架构的联合发明人,认为OpenClaw是等待了20年的突破性技术,但当前版本将机器完全访问权限交给AI智能体的做法存在极大安全隐患 [4][5] - 使用OpenClaw等现有方案时,用户的Bearer Token等凭证会被传递并存储于LLM服务提供商的数据库,导致个人和公司数据面临被访问的风险,用户缺乏真正的隐私保护 [12] - 构建IronClaw的直接动机是避免因AI智能体使用而导致自身或家人的隐私、安全和资金遭受威胁,该项目在GitHub已获得4.6k星标 [6] IronClaw的核心架构与组件 - IronClaw是一个使用Rust编写的开源AI智能体运行时环境,设计目标为安全、代码清晰且适合企业使用 [9] - 其核心架构包含多个组件:负责整体调度的Agent Loop、用户意图分类的Router、并行任务管理的Scheduler、具体执行任务的Worker、负责容器生命周期和权限的Orchestrator、Web交互入口Web Gateway、自动化任务引擎Routines Engine、持久化记忆与检索层Workspace以及安全防护层Safety Layer [10][11] 关键安全特性与设计 - **数据与凭证安全**:所有凭证均被加密存储,且永远不会接触LLM或日志,每个凭证附带使用策略,从根源上防止skills窃取凭证 [12][13] - **代码执行隔离**:通过WASM实现动态工具加载,第三方或AI生成代码始终在沙箱容器内运行,skills无法直接在主机上运行脚本 [12][13] - **防御提示词注入**:目前采用启发式方法,未来计划引入可持续更新的小模型进行检测 [13] - **记忆与文件系统安全**:使用数据库存储记忆并结合BM25和向量搜索的混合搜索,虚拟化文件系统访问,与操作系统抽象隔离 [13] - **行为监控与审计**:支持为用户智能体附加行为策略,并正在将审计日志升级为不可篡改的系统 [13] 未来计划与行业意义 - IronClaw计划增加更多安全与功能特性,包括红队测试、完整安全审查,并支持Web、CLI及Telegram、Slack等多种通信渠道 [12][13] - 项目旨在解决OpenClaw被曝出的2.1万多个公开实例及恶意skills等安全乱象,为AI智能体的大规模安全应用奠定基础 [12] - 其愿景是在AI智能体成为互联网活动终极接口之前,率先解决其安全问题,推动行业向安全可靠的方向发展 [12]
真钱买假模型?187篇论文被「套壳API」坑惨,准确率暴跌
机器之心· 2026-03-07 09:18
文章核心观点 - 第三方大模型“影子API”服务市场存在普遍的模型欺诈行为,供应商通过替换底层模型等手段欺骗用户,对学术研究的严谨性和公信力构成了严重威胁 [1][8][10] 影子API市场的现状与规模 - 受限于高昂定价、支付壁垒和区域限制,直接访问GPT-5、Gemini 2.5等前沿大模型困难,催生了庞大的第三方代理服务市场,即“影子API” [8] - CISPA的研究人员追踪了17个影子API服务,发现它们已被引用进187篇学术论文中,其中约62%被ACL、CVPR和ICLR等顶级会议录用 [11][14] - 最受欢迎的一个影子API已积累5966次论文引用,其相关GitHub项目获得近6万个星标 [14] - 17个服务中,多达11个基于OneAPI或NewAPI等开源系统搭建,且仅有一家拥有正规ICP备案,绝大多数为个人运营的黑盒,缺乏透明度 [14] 影子API的性能欺诈与安全风险 - 在医疗基准MedQA测试中,官方Gemini-2.5-flash模型准确率为83.82%,而通过影子API测试的准确率断崖式下跌至平均36.95%,存在高达47个百分点的性能缺口 [19] - 在法律基准LegalBench测试中,所有受评估的影子API表现均落后于官方端点40.10%到42.73% [20] - 在高难度逻辑推理任务AIME 2025测试中,某热门影子API提供的Gemini-2.5-pro准确率暴跌40.00%,DeepSeek-Reasoner准确率急降38.89% [23] - 在安全性测试中,影子API面对越狱攻击的表现毫无规律,有时严重低估有害内容风险(有害性评分比官方模型低0.23),有时又将有害性放大近一倍 [26] 模型欺诈的检测方法与证据 - 研究人员使用大模型指纹识别框架LLMmap和模型相等性测试来验证模型真实身份 [29] - 在所有被评估的24个具体模型端点中,有45.83%的端点未能通过指纹验证,另有12.50%的端点与官方模型存在巨大的余弦距离偏差,这意味着超过半数的服务在底层悄悄替换了模型 [29] - 分析显示,官方API延迟稳定规律,而影子API延迟经常剧烈抖动,其波动率甚至会超过官方基准的2倍以上 [30] 供应商的经济欺骗手段 - **信息溢价**:收取高昂的旗舰版费用,却在后台用能力相似但更便宜的模型替换,例如以7倍以上的惊人差价提供不同版本模型 [31][32] - **折扣替换**:以官方原价收费,但把高端的闭源大模型替换成低成本的开源模型,例如用户购买GPT-5,后台实际运行的却是GLM-4-9B [31][32] - **加价倒卖**:在官方价格基础上加收服务费,同时依旧在后台替换底层模型以赚取多重差价 [31][32] - 用户按官方标准费率(例如1000次请求约14.84美元)支付,但实际得到的有效token价值只有5.70美元到7.77美元,供应商借此赚取暴利 [31][33] 对学术研究的严重影响与成本 - 学术界若将掺水的影子API用于严肃的数据标注、算法评估或文献总结,将严重动摇整个AI研究大厦的公信力 [35] - 保守估计,即便只有30%的受影响论文需要重新运行实验,仅修复这187篇已知论文中由模型替换带来的数据污染,就需要花费11.5万至14万美元的计算和人工成本 [35] - 这还未计算那些引用了这些问题论文的5966项后续研究,它们可能已在不知不觉中继承并放大了底层错误 [35] 给研究者的建议 - 论文作者建议,应当完全避免在严肃的研究工作流中使用任何未经严格验证的影子API [36] - 如果迫不得已必须使用,在正式收集数据前必须引入强制性审核协议,包括运行至少24次指纹探测、进行500个样本分布测试以比对p值,以及通过多次独立会话来检查延迟和方差是否异常 [36]
YC总裁转发、登顶Hacker News:SkillsBench揭开Agent技能扩展的残酷真相
机器之心· 2026-03-06 19:07
SkillsBench论文的核心发现与影响 - 一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的论文在AI社区引发广泛关注,揭示了Agent技能(Agent Skills)有效性的关键真相 [2] - 论文核心观点:高质量、人工构建的Agent Skills能显著提升AI智能体的任务成功率,而AI自生成的技能通常无效甚至有害,这挑战了“Agent自我进化”的流行叙事 [2][19][23] - 研究由来自BenchFlow、斯坦福、CMU、UC Berkeley、牛津等23家产学研机构的36位学者联合撰写,并集结了105位领域专家共同贡献,确保了研究的权威性与广泛性 [2] Agent Skills的定义与生态现状 - Agent Skills是一种在推理时动态增强LLM Agent的结构化程序性知识包,由指令文件加可选的可执行资源组成 [5] - 与传统的System Prompts、RAG和Tool Documentation有本质区别,Skills是目前唯一同时具备模块化复用、程序性指导、可执行资源和跨模型可移植性的增强方式 [5] - Skills生态正在经历野蛮生长,研究团队聚合到高达47,150个去重后的独立Skills [6] - 在136天的时间跨度内,社区创建的Skills累计总量攀升至84,192个,日均新增810个,单日新增峰值高达18,904个 [8] - Skills已从单一平台特性演变为跨生态行业标准,Anthropic的Claude Code率先定义规范,Google的Gemini CLI、OpenAI的Codex CLI以及OpenClaw等平台均已跟进支持 [8][34] SkillsBench的研究设计与评估方法 - 研究设计拒绝使用“LLM-as-judge”模式,打造了最严苛的测试场 [14] - 基准构建阶段从三大来源聚合了47,150个去重Skills,并由105位贡献者提交了322个候选任务 [14] - 经过自动化检查与105位领域专家的人工审核,最终筛选出86个高质量任务(84个参评),覆盖软件工程、金融、医疗、制造等11个领域 [14][18] - 评估在Docker容器中跨3种条件(无Skills、人工构建Skills、AI自生成Skills)、3种商用Agent平台(Claude Code, Gemini CLI, Codex CLI)及7种模型配置进行,通过代码级确定性验证产出了7,308条运行轨迹 [14][15] 核心发现一:人工构建Skills带来显著性能飞跃 - 注入专家人工构建的Skills后,Agent的平均成功率从24.3%跃升至40.6%,获得了+16.2个百分点的绝对提升 [20] - Claude Code + Opus 4.5组合获得了最大的性能增益(+23.3pp),反映了Claude Code对Agent Skills规范的原生优化 [20] - Gemini CLI + Gemini 3 Flash达到了最高的绝对性能(48.7%) [20] - Gemini 3 Flash通过迭代探索弥补推理深度,每任务消耗输入Token是Pro的2.3倍(1.08M vs 0.47M),但凭借4倍低的单价,每任务成本反而低44%($0.55 vs $0.98) [21] 核心发现二:AI自生成Skills无效甚至有害 - 依赖AI自生成的Skills不仅毫无益处,反而导致平均成功率下降1.3个百分点,直接挑战了“Agent自我进化”的叙事 [23] - GPT-5.2下滑最为严重(-5.6pp),仅有Opus 4.6展现出极其微弱的正向收益(+1.4pp) [23] - 失败模式包括:模型生成的程序不精确或不完整;对于高专业壁垒任务,模型无法意识到自身知识缺乏,盲目采用通用方法试错 [24][27] 核心发现三:Skills的杠杆效应存在显著领域差异 - 大模型预训练数据覆盖越薄弱的垂直领域,Skills带来的杠杆效应越大 [24][26] - 医疗和制造领域因蕴含大量非公开的业务流规范,收益极为惊人,分别达到+51.9pp和+41.9pp的绝对提升 [25][26] - 软件工程(+4.5pp)和数学(+6.0pp)领域的收益微乎其微,因为顶级LLM已在海量代码和数学公式上得到充分训练 [25][26] 核心发现四:小模型搭配高质量Skills可超越大模型 - 在性能-成本的帕累托前沿上,Skills的加持将整条曲线显著上移 [29] - Claude Haiku 4.5搭配Skills的通过率达到27.7%,反超了处于无Skills状态的旗舰模型Claude Opus 4.5(22.0%),而两者API推理成本相差数十倍 [29] - Gemini 3 Flash搭配Skills以低44%的成本达到了全场最高的48.7%通过率 [29] 工程最佳实践与战略启示 - 2-3个Skills是性能甜点区,提供2-3个Skills时性能提升达到峰值(+18.6pp);当强行塞入4个以上时,由于上下文干扰与认知过载,收益骤降至+5.9pp [31][32] - Skills的格式设计至关重要:采用Detailed(步骤详尽且聚焦)格式能带来+18.8pp的提升,而Comprehensive(详尽无遗)的长文档反而会导致性能退化(-2.9pp) [32][33] - 最优策略已从“选最强的模型”转变为“选最适配的Skills + Harness组合” [34] - 在算力受限的背景下,“小模型 + 高质量垂直Skills”为工业制造和医疗等场景提供了极具性价比的解决方案 [35] - 未来AI应用的护城河在于将行业的“暗知识”与复杂的业务SOP,精准转化为标准化的Agent Skills [36]
小鹏加速冲向L4终局:对VLA架构「动刀」成关键一环
机器之心· 2026-03-06 19:07
文章核心观点 - 物理AI(尤其是视觉-语言-动作模型)成为重要趋势,但传统VLA架构因依赖语言作为中间层而存在信息损失和效率瓶颈 [2] - 公司通过推出第二代VLA,创新性地去除了“语言转译”环节,实现了从视觉信号到动作指令的端到端直接生成,旨在解决上述痛点并通向完全自动驾驶 [2][5] - 第二代VLA不仅是产品体验的升级,更是底层技术架构的完全重构,代表了AI驱动驾驶技术的一次重要架构升级 [16][19][39] 技术架构与创新 - **架构革新**:第二代VLA采用端到端的“视觉-动作”架构,将环境感知直接转化为驾驶决策,不再需要先转化为语言推理过程 [19] - **一体化模型**:以统一模型贯通环境感知、场景推理与行动决策,实现“感知—推理—行动”一体化 [20] - **感知层创新**:通过原生多模态Tokenizer,实现视觉、语音、文本等的统一编码与融合,形成对物理世界的统一理解 [21] - **推理层提升**:引入超密集视觉思维链,相较于传统CoT推理效率提升约32倍,预测误差降低33% [21] - **行动层输出**:模型直接生成多模态输出,包括语音、视觉反馈以及具体动作和行为 [22] - **计算优化**:与北京大学联合提出视觉token剪枝框架FastDriveVLA,让AI专注于核心路况信息,高效处理高帧率图像带来的计算量问题 [24] 产品性能与体验 - **三大提升维度**:第二代VLA在实际体验上的提升主要体现在安心丝滑、全场景能力和高效率三大维度 [7] - **识别能力**:端到端模型具备强大泛化能力,能准确识别各种异形车辆 [8] - **场景应对**:能正确识别交通事故中的障碍物,并进行实时路径规划 [10] - **全场景覆盖**:支持从停车位原地激活,覆盖园区小路、乡村土路及无导航道路等复杂场景 [12] - **无缝衔接**:实现从家里车位到公司车位的点到点无缝衔接辅助驾驶 [15] - **效率提升**:在保障安全的前提下,综合行车效率实测提升23%,在城市晚高峰复杂路况下通行效率超过传统L2智驾和Robotaxi [15] - **使用门槛**:技术使用门槛大幅降低,旨在让国民智驾像坐电梯一样简单、安全且好用 [15] 能力构建体系 - **能力公式**:提出L4级自动驾驶能力遵循“模型 × 算力 × 数据 × 本体”的规模法则,强调算法、硬件与数据的深度耦合 [26][27] - **算力协同**:通过自研图灵芯片及“芯片-编译器-模型”的联合优化,实现了深度软硬件一体化,模型在车端运行速度飙升12倍 [30] - **数据规模**:已积累超过50PB的训练数据,车端高清传感器每秒处理高达53亿字节的视觉数据 [32] - **数据飞轮**:仅20万辆搭载第二代VLA Ultra的车辆,每天在车端模型消耗的物理AI Token量高达58.8万亿,是全国数字AI日调用量(约0.737万亿Token)的近80倍 [31] - **AI基础设施与仿真**:依托领先的AI基础设施,在半年内完成了468个模型版本迭代;仿真场景库从一年前的3万个激增至50多万个,日均仿真测试里程等效于3000万公里实车测试 [34] 行业意义与公司战略 - **行业突破**:基于端到端模型的辅助驾驶能力被认为是汽车行业未来三年的重要突破,是面向完全自动驾驶的第一个版本 [39] - **技术路径探索**:第二代VLA代表了公司在自动驾驶技术路径上的一次重要探索,即围绕自研基座模型打造统一的物理世界智能系统,而非传统模块化优化思路 [39] - **竞争关键**:这种以AI驱动、统一理解真实世界并持续学习演进的技术体系,将成为自动驾驶下一阶段竞争的关键变量 [40] - **发展预测**:行业普遍预测2026年将成为“物理AI元年”,公司第二代VLA的落地被视为率先给出了通向完全自动驾驶的“中国答案” [5]
不同灵巧手,终于可以共用「一套大脑」了
机器之心· 2026-03-06 14:16
行业核心问题与瓶颈 - 机器人灵巧操作领域长期面临的核心挑战是缺乏一种统一、可泛化的描述方式,导致为每种形态各异的灵巧手(手指数量、关节拓扑、自由度、驱动方式不同)都需要单独设计动作空间、采集数据并训练控制模型,这显著提高了开发成本并限制了算法的复用与规模化落地[3] - 现有方法深度依赖特定硬件设计,策略与具体手型紧密绑定,模型难以在不同手型间迁移,系统难以扩展,成为灵巧操作规模化发展的关键瓶颈[7] 提出的解决方案 - 研究团队提出了一种名为“One Hand to Rule Them All”的规范化灵巧手表示框架,旨在为不同灵巧手构建一个统一、规范且具备泛化能力的描述空间,将“手”本身作为模型的条件输入,使不同手型可以共享同一套动作表达与策略结构[5] - 该框架将具有不同自由度、手指配置和运动学结构的灵巧手,统一映射到一个共享的参数空间和标准化的URDF形式中,在保留原始手部运动学特性的同时,引入了统一的动作维度[8] - 具体方法包括:设计参数化的规范化URDF表征,固定运动学拓扑并统一坐标定义,以消除建模不一致性;采用胶囊体抽象几何以降低复杂度;引入一组紧凑且可解释的参数(如手掌尺寸、手指长度等)将手部结构表示为固定维度向量;并构建了统一的22维关节动作空间[14][16] 技术验证与实验结果 - **规范化参数的隐空间学习**:通过变分自编码器(VAE)学习手部形态的隐空间表示,潜变量连续变化时,手指数、手指长度等参数呈现平滑过渡,表明该表示能学习到连续、结构化且具有物理语义的形态流形[18] - **物理一致性验证**:在手内物体旋转任务中,规范化URDF模型与原始URDF模型表现高度接近。例如,Shadow Hand原始模型Steps-to-Fall为369.66,规范化模型为390.62;LEAP Hand原始模型Cumulative Rotation为5.63,规范化模型为6.31[20][21] - **跨手抓取策略共享**:在Allegro、Barrett与Shadow Hand三种差异显著的手型上联合训练单一抓取模型,结果显示统一训练模型在所有手型上的抓取成功率均优于独立训练模型。例如,在Allegro上,统一训练成功率为84.2%,独立训练为82.1%[25][26][27] - **零样本泛化能力**:在未见过的手型(如不同配置的LEAP Hand变体)上测试,抓取策略展现出良好的零样本泛化能力。例如,在训练中未包含leap_3033数据的情况下,在该手型上的抓取成功率为67.8%[28][29] - **真机实验验证**:在真实机器人系统(Franka机械臂、LEAP Hand)上的实验表明,基于规范化表示训练的策略能有效迁移到真实环境。例如,在leap_3333手型上对10种物体的平均抓取成功率为83%(83/100),而零样本模型在leap_3033手型上也取得了71%(71/100)的成功率[36][38] 方案优势与潜在影响 - 该规范化表示框架使数据与策略能在不同手型间高效共享,降低了对特定手型定制化设计的依赖,为跨具身学习提供了可扩展、可复用的表示基础[40] - 该方法不仅限于抓取任务,其设计原则有望推广至更广泛的机器人形态(如类人机器人、多形态末端执行器)和更复杂的操作场景,推动具身智能向更通用、可迁移的方向发展[40]
海外华人15人团队打造,统一理解与生成的图像模型,超越Nano banana登顶图像编辑
机器之心· 2026-03-06 14:16
文章核心观点 - Luma AI公司发布其首个统一图像理解与生成模型Uni-1,该模型采用decoder-only自回归Transformer架构,将理解与生成能力整合于单一模型,旨在让AI具备“思考”能力[1][2] - 在RISEBench推理式生成基准上,Uni-1取得当前最优成绩,并在ODinW-13开放词汇密集检测等理解任务上展现出强劲竞争力[10][83] - 该模型通过“推理式生成”技术,在处理复杂指令时先进行结构化内部推理,再执行渲染,其生成训练被证明能显著提升模型的细粒度理解能力[79][80][81] - 与谷歌、OpenAI等大公司依赖巨量资源的路径不同,Luma AI凭借小规模精英团队和更聪明的架构设计,试图在资源有限的条件下实现超越规模优势的结果[95][97][98][99] 模型技术架构与性能 - **统一架构设计**:Uni-1采用decoder-only自回归Transformer架构,将文本token和图像token表示在同一个交错序列中,实现了对时间、空间和逻辑的联合建模,使文本和图像既可作输入也可作输出[79] - **性能基准表现**:在评估生成模型推理能力的RISEBench基准测试中,Uni-1取得当前最优成绩,该基准覆盖时间、因果、空间和逻辑四个推理维度[81] - **理解能力验证**:在传统上由专门理解模型主导的ODinW-13开放词汇密集检测基准上,Uni-1取得了有竞争力的成绩,验证了“生成训练提升理解能力”的技术假说[83] 模型具体能力展示 - **中文文字渲染**:在生成包含“新春快乐”、“马年大吉”等中文文字的马年新春贺卡任务中,Uni-1在文字完整性、排版合理性和视觉风格一致性上均优于对比模型GPT Image 1.5和Google Nano Banana Pro[18] - **信息图理解与生成**: - 在将公益海报提取为信息图的任务中,Uni-1准确还原了文字内容并保持了正确的层级结构,而对比模型存在混淆层级或内容不完整的问题[22] - 在生成关于“水钟与古代计时”的密集文字信息图任务中,Uni-1在布局规划、文字清晰度和图文配合方面表现优于其他模型[28] - 在生成“种子到植物生命周期”平铺式信息图时,Uni-1准确呈现了完整生命周期阶段,并正确展示了植物形态的渐变关系[36] - **参考图引导生成**: - 在需要融合4张参考图(两只猫、一位真人、Luma AI logo)合成会议场景的任务中,Uni-1准确保留了每个参考对象的身份特征并实现了合理构图[39] - 在处理5张不同参考图(3只动物、一个logo和学术礼帽)融合为连贯场景的任务中,Uni-1展现了精确的多源参考信息控制能力[43] - **草稿引导编辑与转化**: - 在将外套设计草稿与面料材质参考结合生成写实产品概念图的任务中,Uni-1准确映射了面料纹理,生成了具有商业可用度的渲染图[50] - 在将粗略漫画分镜草稿转化为精细漫画插图的任务中,Uni-1完整保留并精细化了所有细部信息,体现了对草稿语义的深层理解[59] - **风格迁移与角色一致性**: - 在将现代女性发型迁移至《蒙娜丽莎》画像并保留油画风格的任务中,Uni-1在风格一致性和迁移准确性上取得了平衡[63] - 在生成展示同一角色从童年到老年在钢琴前的6帧故事板任务中,Uni-1全程维持了角色身份特征的一致性、叙事连贯性和时间逻辑[69] - **多轮交互编辑**:在对泰迪熊照片进行连续三轮编辑的任务中,Uni-1精准执行了每一轮指令,并保持了各轮之间主体身份和空间关系的连贯,展现了统一架构在理解和生成协同上的优势[73] - **专业视觉任务**:在根据三张面部照片生成标准UV贴图的任务中,Uni-1在面部特征对齐、对称性和肤色一致性方面优于对比模型[76] 行业背景与竞争格局 - **行业技术路线演变**:当前视觉AI领域,图像理解与图像生成长期是两条独立的技术路线,Uni-1代表了从“分治”到“统一”的技术趋势[78] - **主要竞争者动态**:谷歌近期推出了主打“又快又便宜”的Nano Banana 2模型,并在社交平台引发关注[5] - **资源路径差异**:谷歌、OpenAI、Meta等大公司依赖巨量资源堆砌模型上限,而Luma AI等初创公司则尝试通过更聪明的架构设计以小博大[97][98][99] 公司团队与未来规划 - **核心团队**:Uni-1由不到15人的核心研究团队开发,由两位华人学者领衔[85] - 首席科学家宋佳铭,其发明的DDIM算法被Stable Diffusion、DALL・E等广泛采用,引用量超过万次,并曾获ICLR 2022 Outstanding Paper Award[86][87][88] - 研究负责人William Shen(沈博魁),研究横跨计算机视觉、机器人、图形学和生成模型,曾获CVPR Best Paper Award提名,其创立的公司被Luma AI收购[90][91][94] - **未来规划**:Uni-1是Luma迈向统一多模态智能的第一步,后续统一框架将从静态图像扩展到视频、语音和交互式世界模拟等模态,旨在构建能完成“看、说、推理、想象”的多模态系统[98]
CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster
机器之心· 2026-03-06 12:31
行业技术演进 - 视频生成领域正从传统的单镜头生成迈入多镜头视频生成时代,近期可灵3.0、Seedance 2.0等产品已展示出多镜头叙事能力,支持一次生成多个导演级镜头[2] - 对于预算有限的开发者而言,参数量在10B(百亿)以上的大模型开发成本较高,100B(千亿)以上的模型更是令人望而却步[2] 公司/研究团队创新 - 大连理工大学、香港中文大学与快手可灵团队联合推出了名为“MultiShotMaster”的高度可控多镜头视频生成框架[2] - 该框架的创新性在于,即使在参数量约为1B(十亿)左右的小模型上,也能实现导演级的镜头调度和连贯叙事,并支持多图参考和主体运动控制[2] - 该论文已被CVPR 2026录用,基于Wan 1.3B和14B的多镜头模型的训练和推理代码已开源[4] - 开源版MultiShotMaster在由北大等高校举办、华为赞助的AAAI CVM Workshop竞赛中斩获冠军,竞赛重点考核世界知识一致性、相机移动一致性和跨镜头ID一致性[5] 技术框架核心 - MultiShotMaster调整了传统单镜头文生视频模型架构,使其能够生成多镜头视频,每个镜头单独通过3DVAE编码并在时序上级联融合[7] - 作者提出了“多镜头叙事RoPE”,在原始的3D RoPE基础上于镜头切换处施加相位偏移,这能显式标记镜头边界并维持叙事顺序,从而支持用户自由设定镜头数量和时长[7] - 框架构建了“总分式提示词结构”,使用全局提示词描述角色外观、环境及风格,镜头级提示词描述角色交互、场景布局、相机运镜,并防止跨镜头信息泄露[8] - 为实现可控性,框架设计了“时空位置感知的RoPE”,将指定时空区域的RoPE重采样为更细粒度后分配给参考图像tokens,从而实现参考图像在指定时空位置的注入[11] - 通过复制同一角色的Token并分配不同的时空RoPE,可以控制同一主体的运动轨迹[12] - 框架设计了“多镜头-多主体Attention Mask”,允许跨镜头视频tokens交互,但限制每个镜头的视频tokens仅能与视频内的参考tokens交互[12] - 整个框架没有引入外部参数,而是利用并改进了视频生成模型原有的3D-RoPE,实现了可控的多镜头视频生成,支持文本驱动的镜头间一致性、可灵活配置的镜头数量和时长、运动可控的主体定制化以及背景可定制的场景一致性[12] 实验数据与结果 - 在定量和定性的比较中,MultiShotMaster在镜头间一致性、切镜准确性、叙事连贯性、参考图一致性上都展现出了卓越的性能[17] - 定量实验结果显示,在文本对齐(Text Align.)指标上,带参考图的MultiShotMaster模型得分为0.227,高于对比模型VACE(0.201)和Phantom(0.224)[21] - 在镜头间语义一致性(Inter-Shot Consistency Semantic)指标上,带参考图的MultiShotMaster模型得分为0.702,高于其他对比模型[21] - 在叙事连贯性(Narrative Coherence)指标上,带参考图的MultiShotMaster模型得分为0.825,显著高于其他对比模型[21] - 在参考一致性(Reference Consistency)的多个子项(主体、背景、接地)上,带参考图的MultiShotMaster模型也取得了最佳或领先成绩[21] 数据构建方法 - 训练数据构建采用自动化流程:使用镜头切换检测模型TransNet V2将长视频裁切成短片段,再用场景分割模型SceneSeg聚合同一场景片段并采样多镜头视频[19] - 引入总分式提示词结构,使用Gemini-2.5-Flash生成全局描述和每个镜头的描述[19] - 整合YOLOv11、ByteTrack和SAM来检测、追踪和分割主体图像,再利用Gemini-2.5-Flash根据主体外观合并跨镜头的跟踪结果[19] - 使用OmniEraser获得干净的背景参考图[19] 总结与影响 - MultiShotMaster通过对RoPE的创新性改进,实现了高度可控的多镜头视频生成,其多镜头叙事RoPE与时空位置感知RoPE,在无需引入额外参数的情况下,实现了对镜头边界、角色一致性及运动轨迹的精细化操控[23] - 在仅约1B参数的模型规模下,该框架即展现出了卓越的叙事连贯性与跨镜头一致性,验证了其实现导演级控制的巨大潜力[23] - 自动化的多镜头数据标注流程及开源模型将为研究社区提供强力支持,有望推动AI视频创作进入一个叙事更连贯、表达更自由的新阶段[24]
李飞飞50亿美金赛道被开源!浙大教授章国锋带队创业,打造无限时长实时3D世界模型
机器之心· 2026-03-06 12:31
行业背景与赛道定义 - AI领域最前沿方向“世界模型”正经历革命,其核心挑战是智能体对**空间智能**感知的缺失,这横跨了虚拟与现实之间的鸿沟 [1] - 2024年,由李飞飞教授创立的World Labs强势入局,点燃了**空间智能**这一**千亿级**赛道的全球战火,该公司近期完成新一轮融资后**估值飙升至50亿美元**[1] - World Labs的核心产品RTFM(实时帧模型)是一个**实时生成式世界模型**,旨在构建拥有**永久一致性**的3D场景,使智能体能理解并实时交互物理世界 [1] 公司技术与产品突破:InSpatio-WorldFM - 国内创业公司影溯(InSpatio)发布并开源了实时帧生成模型 **InSpatio-WorldFM**,这是一个实时交互的3D世界模型,标志着中国团队在空间智能底层技术上取得奠基性突破 [2] - 该模型由**浙江大学**章国锋博士领衔的团队开发,凭借在3D视觉和空间计算领域**20多年**的底蕴,通过独创的**“数据升维”与“几何约束”**策略,激活了互联网海量2D存量视频数据中蕴含的3D空间知识 [4] - 这一技术路径破解了行业“高质量、规模化3D数据贫矿”的局限,将海量2D数据高效转化为驱动3D世界模型的高维原动力 [5] - 模型能够高效进行**多视角一致的空间推理**,并支持**实时交互式探索**[6] - 模型生成的3D虚拟世界具有高度一致性,在空间几何、光照与物理规律上非常稳定,**无限时长推理不会出现遗忘和衰退**[8] - 模型对算力需求低,目标是让实时空间推理能在**消费级GPU**上实现,甚至在**单块RTX 4090 GPU**上就能实现实时推理,将空间智能从数据中心扩展到边缘设备 [8] - 模型支持**整体一致性编辑**,可在保持几何、光照、材质与物理逻辑全局一致的前提下,进行跨视角、跨区域的统一调整,编辑对象是一个**可控、连贯、具物理约束的三维世界本体**[8][9] 核心技术路线与优势 - 当前主流世界模型(如谷歌Genie 3、OpenAI Sora)本质上是基于**2D像素概率预测**的视频生成模型,而影溯的技术路线是构建**原生的3D世界**[11][12] - 模型将**“三维多视图一致性”**作为核心约束机制,赋予空间智能**物理级的持久一致性**,解决了2D模型常见的物体变形、背景扭曲等问题 [14][16] - 这种3D机制突破了2D视频模型的极限时空记忆,解决了**“长时序遗忘”和“空间几何崩塌”**问题 [17] - 模型采用**“显式锚点 + 隐式记忆”**混合架构设计,利用前馈式重建技术生成显式物理空间锚点,并提供隐式记忆,让AI拥有“三维坐标体系”,理论上**生成的时长是无限的**[19][20] - 在训练上,团队利用在SLAM、NeRF和3DGS等领域的技术积累,能够**极低成本地合成海量高质量的3D训练数据**,打破了3D训练数据匮乏的行业瓶颈 [20] - 模型训练仅动用了**100张卡**的算力规模,远低于当前主流视频模型训练所需的算力 [13] - 模型展现出卓越的**像素级前景锁定能力和精准运镜控制**,支持将视频中的动态前景无缝转移到另一空间环境,并保证高度一致性 [12][13] 团队背景与商业壁垒 - 影溯核心团队由**浙江大学计算机辅助设计与图形系统全国重点实验室**(图形学全球排名第三)与原**商汤科技3D视觉与混合现实团队**的顶尖专家组成,堪称国内空间计算领域“梦之队”[24][25] - 创始人**章国锋**为浙江大学求是特聘教授、国家杰青,在SLAM和3D重建领域深耕超过**20年**[25] - 联合创始人兼CTO**刘浩敏**曾主导实现业内首个手机端无标志SLAM商业系统,比苹果ARKit和谷歌ARCore早了**3年**[25] - 公司已构建**三维场景重建与生成平台**,具备大尺度真实场景的快速扫描与重建生成能力,提供从数据采集到应用开发的完整工具链 [26] - 公司构建了行业内独有的**“3D数据升维引擎”**,从海量视频中抽取3D知识,用几何约束工具链打破3D数据荒,这构成了其**核心商业壁垒和技术护城河**[26][27] 战略定位与行业影响 - 与World Labs选择闭源不同,影溯确立了**开源共建**的核心战略,认为空间智能的未来应由全球开发者共同创造 [28] - 公司下一步计划提供更丰富的技术细节,并推出扩展版模型及**支持与动态世界实时交互**的体验应用 [28] - InSpatio-WorldFM等开源空间智能模型的推出,为生成模型、具身智能体和现实世界机器人提供了全新的起点 [29]