Workflow
量子位
icon
搜索文档
一年一度最值得关注的AI榜单来啦!申报即日启动
量子位· 2026-03-10 16:00AI 处理中...
这两年,AI从"新技术"变成了"新工具",又从"新工具"慢慢变成企业必须面对的现实。它不只在改变内容生产,也在影响研发效率、营销方 式、团队协作,甚至决策流程。 中国生成式AI正在进入产业深水区。 组委会 发自 凹非寺 量子位|公众号 QbitAI 时值第四届中国AIGC产业峰会, 量子位将根据过去一年里生成式AI企业、产品的表现与反馈,结合对2026年技术与场景的观察与预判,评 选出: 将评选出拥有最创新、最前瞻或最有规模落地潜力的AI企业。 【参选条件】 2026年度值得关注的AIGC企业 2026年度值得关注的AIGC产品 1. 公司主体在中国或主营业务在中国; 2. 主营业务是生成式AI及相关,或已将AI广泛应用于其主营业务; 3. 近一年在技术/产品、商业化有出色表现的企业。 【评选维度】 量子位将结合对公司的深入调研及数十位行业知名专家的意见,评选结果将于2026年5月中国AIGC产业峰会上公布。 届时,量子位也将邀请数百万行业从业者,共同见证这些优秀企业的荣誉。 2026年度值得关注的AIGC企业 2026年度值得关注的AIGC产品 将评选出拥有最创新、最实用、最热门或最有应用潜力的AI产品。 ...
腾讯「鹅虾」紧急上线!一手实测:养虾门槛归零,QQ飞书钉钉全能接
量子位· 2026-03-10 16:00
腾讯发布“鹅虾”系列AI产品 - 腾讯在短时间内连续发布两款AI Agent产品:WorkBuddy智能体桌面平台和QClaw应用[1] - WorkBuddy已上线,QClaw预计下周开启公测[1][2] - WorkBuddy发布后因访问量过大导致平台瘫痪,QClaw的内测群也迅速加满,显示出强烈的市场需求[4] WorkBuddy产品定位与核心功能 - WorkBuddy定位为面向多场景的AI Agent,重点承接日常工作流和实际任务,同时兼容OpenClaw技能[6] - 核心功能包括:支持无缝接入QQ、飞书、钉钉等高频聊天与办公工具[6] - 具备处理代码开发、文档总结、数据分析、本地任务执行等多种工作流的能力[6] - 内置混元、DeepSeek、GLM、Kimi、MiniMax等多种大模型,并提供20个以上的内置Skills技能包[6] WorkBuddy产品设计与用户体验 - 产品界面分为代码开发和日常办公两大主区域,左侧设有新建任务、Claw和插件入口[7] - “插件”功能内嵌数十种擅长不同任务的插件,将许多需要手动配置的skills变为默认选项,简化了操作[10] - 生态接入配置(如绑定QQ)过程简单,平台提供详细指南,用户实测可在几分钟内完成部署,无需代码经验[15][16][18] - 在移动端执行复杂任务(如搭建网站)时可能出现问题,更适合承担文档解析、文案撰写等轻量任务入口[20][22] WorkBuddy场景应用实测:定时推送与网页搭建 - 在“定时推送”任务测试中,WorkBuddy通过创建Python脚本,成功搭建了一个能定时抓取并刷新全球AI资讯的网站[26][30] - 生成的资讯聚合页面设计具有科技感,信息源包括卫报、纽约时报、BBC等权威媒体,并标注发布时间[32] - 在“网页搭建”测试中,WorkBuddy被要求开发一个俄罗斯方块网页游戏,它先对需求进行功能拆解与逻辑设计,随后在3至5分钟内完成创建[38][39][41] - 生成的小游戏页面简洁,包含分数、等级、操作说明等关键模块,运行流畅,适合轻量级网站或小程序的快速开发[44][45] WorkBuddy场景应用实测:数据分析 - 在“数据分析”办公场景测试中,WorkBuddy根据Excel数据表生成了一份全球AI市场数据分析报告[47] - 报告要求包括总结增长趋势、计算区域占比、找出高增长公司、分析相关性及给出数据洞察等六项内容[48] - 报告成功输出了增长趋势、市场规模、数量分布等数据的可视化图表,且经核查数据准确[50] - 但在执行复杂提示词时出现小bug,如数据洞察、可视化建议、行业结论等内容未能在图例中完整显示,任务执行耗时10至15分钟且中途崩溃数次[47][51][52] QClaw产品特点与市场反响 - QClaw是一款能直接接入微信、支持远程对话的Claw类应用[2][54] - 其核心能力包括:微信直连对话、拥有5000个以上的Skills技能生态、支持持续记忆、以及本地操控电脑文件与应用等[64] - 产品尚未上线,但官方消息放出后市场需求旺盛,内测邀请码被争抢,已快速建至第九个内测群[57] 行业趋势与生态布局 - 腾讯此次还上线了“腾讯云轻量应用服务器”,支持用户一键部署OpenClaw,主要面向开发者群体[59] - 行业演进迅速:从年初感觉AI技术(文中喻为“龙虾”)遥不可及,到上个月流行本地部署攻略,再到出现线下排队安装服务,如今已进入“微信养虾”时代[61][62][63] - 腾讯利用自身在社交软件(微信、QQ)的生态优势推出AI产品,被认为更懂自家用户需求,可能为平台带来新的活跃度[58]
从视觉出发统一多模态!颜水成团队最新研究:不再把图像编解码器塞进LLM|ICLR'2026
量子位· 2026-03-10 16:00
文章核心观点 - AI大模型预训练范式可能正在发生第二次转移,从“预测下一个词”转向“预测下一个物理状态”或“世界建模” [5] - 多模态统一模型的构建基础可能从“语言优先”转向“视觉优先”,Muddit模型是这一路径的代表 [7][15] - Muddit通过一套完全离散扩散框架,实现了文生图、图生文和视觉问答任务的生成机制统一,挑战了多模态领域默认的“语言中心论” [19][23][37] 多模态模型发展路径与范式转移 - 过去几年行业最成功的预训练范式是围绕“预测下一个词”展开,多模态模型主流思路是“语言为骨架,其他模态为外挂” [3] - NVIDIA研究员提出AI正经历第二次预训练范式转移,从“next word prediction”转向“world modeling”,即预测世界在给定条件和动作后的演化 [5] - 未来基础模型若要更接近世界本身,其构建基础可能需要重新审视,不一定继续建立在语言优先的体系上 [7][16] 现有“统一”模型的局限 - 当前多数统一生成模型本质仍是“language-first”,视觉能力是围绕语言主干的拼装,并非真正的生成原理统一 [8][11] - 自回归建模将二维图像压扁成一维token序列,导致图像生成慢、推理成本高,且难以兼顾质量、效率和可控性 [10] - 许多模型使用不同机制处理文本和图像(如离散扩散与连续扩散),靠模板或额外token缝合,未形成真正统一的多模态生成范式 [11] Muddit模型的核心创新 - 核心思路翻转:不是让LLM学会画图,而是让一个具备强视觉先验的图像生成模型长出跨模态统一生成能力 [13][15] - 采用完全离散扩散框架:将文本和图像都表示为离散token,用同一套离散扩散框架建模,共享生成器、训练目标和采样逻辑 [19][24] - 实现生成机制统一:文生图、图生文、VQA任务切换仅改变条件信号,扩散过程、损失设计和引导逻辑全部共享 [21][22][23] - 模型骨干共享:核心backbone是共享的MM-DiT,由预训练的Meissonic文生图模型初始化,继承了其视觉先验能力 [20] 技术路径优势与评估结果 - 离散扩散优势:通过随机mask和逐步恢复学习,不强制固定生成顺序,支持并行预测,推理更灵活,适合统一建模 [24] - 文生图性能:1B参数、512×512的Muddit在GenEval上整体准确率达0.61,超过Monetico的0.44和Meissonic的0.54,接近2B参数的Stable Diffusion 3的0.62 [27] - 具体能力:在two objects任务上达0.72,在counting任务上达0.54,显示其在组合性和结构性要求上的竞争力 [27] - 图像理解与图生文性能:512×512模型在MS-COCO captioning上CIDEr达59.9,VQAv2达68.2%;1024×1024版本提升至60.1和70.2% [28] - 统一训练效果:联合训练将GenEval分数从单独任务的59.3和28.3提升至61.6,证明跨模态对齐能力通过统一优化得以增强 [29] 数据与训练效率 - 数据规模相对较小:1B的512×512版本基于10M数据训练,1024×1024版本基于16M数据,对比其他模型数据量更少 [30] - 训练效率高:强视觉先验带来了图文对齐能力,完全统一的建模范式避免了混合目标与复杂架构的优化负担 [30] - 前作对比:Meissonic模型使用210M图像,在8×A100 GPU上训练19天,相比其他模型(如SD-1.5用4800M图像训练781.2天)效率显著 [31] 行业意义与未来方向 - 切中多模态基础模型方向切换:从在语言体系内扩展视觉,转向要求模型更接近世界结构本身(如视频、3D、具身智能) [33] - 视觉更接近世界本质:未来模型处理的核心是状态、空间、变化和反馈,这些天然更靠近视觉而非语言 [34] - 提供新基座可能:下一代统一模型可以从视觉出发,利用图像生成模型已学到的空间、语义和组合知识重新搭建生成框架 [40] - 引发根本性思考:统一生成模型的下一站不应只是“让LLM多会一点”,而应重新思考什么是多模态基础模型真正的基座 [41][42]
Meta亚历山大王走人?小扎回应了
量子位· 2026-03-10 12:05
关于Meta首席AI官Alexandr Wang离职传闻的官方澄清 - Meta首席执行官扎克伯格在Threads上发布与Alexandr Wang的合照,直接否认离职传闻 [1] - Meta发言人Andy Stone在X上发文辟谣,称Wang仍在负责Meta超级智能实验室和TBD Lab,且其影响力在团队内持续上升 [4] - 发言人评价此前媒体的相关报道“实在太荒唐” [7] 传闻起源与核心指控 - 近期网络传闻称Meta AI一号位Alexandr Wang已离职或被架空,甚至有爆料称其离职时间定于“这周三” [12][15] - 《印度时报》等媒体报道称,扎克伯格对以约140亿美元(或143亿美元)聘请的Wang失去信心,Wang已被边缘化 [20][50] - 报道将Meta上周二的组织重组视为导火索,新成立的应用AI工程团队由Maher Saba领导,直接向CTO汇报,不再向Wang汇报 [21][22][23] - 新团队旨在打造“数据引擎”,加速AI模型训练,而Wang此前承诺的新模型“Avocado”(牛油果)和“Mango”(芒果)未来将基于该团队的基础设施训练 [25][27] - 报道称Wang与扎克伯格的核心助手Chris Cox及CTO Bosworth在技术路线上存在冲突:Wang主张追赶前沿基础模型,而后者希望围绕Facebook和Instagram的用户数据打造产品 [29][30][31] - 报道将此次调整描述为一场“软解雇”,称Wang保留了职务但失去了所有主要控制权 [33] 传闻背景:Alexandr Wang其人及在Meta的职责 - Alexandr Wang是数据标注公司Scale AI的联合创始人兼前CEO,1997年出生,24岁时已成为最年轻的白手起家亿万富翁之一 [45][46] - 2025年夏天,Meta以约143亿美元投资Scale AI并获得接近控股的股权,同时Wang卸任Scale AI CEO,加入Meta担任首席AI官,负责新成立的Meta Superintelligence Labs,成为Meta AI一号位 [48][50][51] - 加入后,Wang从OpenAI、Anthropic、Google DeepMind等公司挖来一批顶级研究员,并重组研究部门,将前沿大模型研发整合到“超级智能”事业部下 [52][53] - 在其领导下,Meta的AI路线发生变化,资源从持续迭代开源模型Llama转向开发新一代基础模型,目标是在2026年发布能与OpenAI、Google竞争的产品 [55] 传闻发酵的潜在原因:新模型进展与公开动态 - 传闻剧本称Wang被“换掉”是因为新模型“牛油果”难产,其发布时间从原本预计的去年底一路拖延至2026年第一季度,目前3月已过半仍无正式消息 [9] - 在头部公司普遍几个月迭代一次模型的硅谷,Meta新模型迟迟未发布显得格外反常 [56] - Wang本人最近一次以Meta身份公开亮相是2026年2月20日在印度AI影响力峰会,其在X上的置顶帖仍是2025年7月宣布加入Meta的那条 [58][9] 市场与公众反应 - 相关传闻在Reddit等平台成为热帖,网友对扎克伯格的管理、招聘及新模型进展提出诸多质疑和调侃 [36][37][38][43][44] - 在Meta发言人澄清帖下方,有用户表示《印度时报》报道为假,也有人对官方表态持怀疑态度 [40][41] - 相比澄清贴,关于离职传闻的讨论明显更为热闹 [42]
机器人全程自主收拾客厅!390亿美元估值机器人端到端新技能,英伟达持续加注
量子位· 2026-03-10 12:05
公司核心进展 - 公司最新演示显示,其机器人能够**完全自主、端到端**地完成整理客厅的复杂任务,包括喷洒消毒液擦拭茶几、拾起并归置杂物、摆正抱枕以及使用遥控器关闭电视并摆好遥控器 [1][2][4][6][8] - 此次突破由公司自主研发的**具身大脑Helix 02系统**驱动,该系统仅通过补充最新场景数据,**未新增算法或进行特殊场景工程适配**,便掌握了这一全新复杂日常任务 [9][11] - Helix 02是一个**单神经网络系统**,能够直接通过像素控制全身,支撑机器人在整个房间内完成灵活且长周期的自主任务 [12] 技术架构详解 - Helix 02的核心是一个**统一的视觉—运动神经网络**,它将机载的全部传感器、视觉、触觉与本体感知直接连接到所有执行器,让机器人将“感觉、思考、行动”整合为一体 [13][14] - 系统采用三层紧密层级架构:**System 2**负责高层语义推理,理解场景和语言并拆解任务;**System 1**以200 Hz频率将感知转化为全身关节目标;**System 0**以1kHz频率执行,负责平衡、接触处理及全身协调执行 [16][17] - **System 0**是关键创新,它是一个基于**1000多小时人类运动数据**训练并结合仿真到现实强化学习的全身控制器,用一个神经网络先验替代了**109504行手工编写的C++控制代码**,学习人类在保持平衡下的通用运动模式 [18][19][21] - **System 1**实现了从像素到全身的控制架构,将所有感知信息转化为可执行的全身动作;**System 2**则负责语义推理,为System 1生成隐式目标 [22][23][24] 系统能力与演示细节 - 在最新演示中,Helix 02展示了多项复杂技能,包括:协同使用工具清洁表面、动态操控柔性物品(毛巾)、完成复杂双手协同操作、采用全身协作策略提升效率、精准完成物体抛接动作、手内调整物体姿态以执行精细任务、移动过程中调整工具存放方式以及精准控步穿行狭窄空间 [26] - 系统输入包括头部摄像头、手掌摄像头、指尖触觉传感器及全身本体感知;输出为覆盖双腿、躯干、头部、手臂、手腕与每一根手指的完整关节级控制 [25] - 此前,搭载Helix 02的Figure 03机器人已在厨房场景中,用**近4分钟**时间,**全程无重置、无人为干预、无遥操作**,一气呵成完成了行走、抓取、搬运、放置等**61个操作** [10] 公司背景与融资情况 - 公司成立于**2022年5月**,创始人为连续创业者Bret Adcock [28] - 公司发展迅速,**2024年3月**发布初代机器人Figure 01并与OpenAI合作,**5个月后**发布第二代产品Figure 02 [29][31] - 尽管在**2025年2月**与OpenAI解约,但公司仍获科技巨头持续看好 [33] - **2025年9月**,公司完成C轮融资,获得**超10亿美元**承诺资本,投后估值高达**390亿美元**,创下公开信息中具身智能赛道的最高估值纪录 [34] - C轮融资由Parkway Venture Capital领投,**英伟达继续加注**,其他投资方包括微软、英特尔资本、LG Technology Ventures、Salesforce等 [34] 行业前景与公司愿景 - 随着可执行任务的不断增加,Helix 02的技能库持续扩充,公司正逐步迈向用**一套人形机器人系统**完成家庭与办公场景下各类日常任务的目标 [27]
12小时登顶OpenAI MLE-bench!上海AI Lab开源算法进化框架MLEvolve
量子位· 2026-03-10 12:05
文章核心观点 - 上海人工智能实验室推出的MLEvolve系统,是一个基于渐进式蒙特卡洛图搜索与多智能体协作的自进化机器学习框架,在MLE-bench基准测试中,仅用12小时运算预算便以61.33%的奖牌率登顶榜首,标志着AI从代码生成向自主算法设计能力迈进的关键一步 [1][4][21] 技术架构与核心模块 - MLEvolve框架由四大核心模块协同驱动:渐进式蒙特卡洛图搜索(搜索引擎)、经验驱动的全局记忆层(知识中枢)、多模式自适应代码生成(执行引擎)以及多智能体专业化分工(协作体系)[5][7][8] - 系统构建了“规划→构建→评估→进化”的完整自进化闭环,旨在让智能体在有限预算内通过持续搜索、验证与精进来不断逼近更优解 [5][7] 核心技术创新:渐进式蒙特卡洛图搜索 - 采用渐进式蒙特卡洛图搜索替代传统树搜索,通过三大机制实现搜索能力质变:时间感知的探索-利用切换、跨分支融合与轨迹进化、多层级停滞检测 [8][9][11][12][13] - 该技术实现了从“线性树”到“图式网络”的搜索革命,允许不同搜索路径之间进行经验互通与优势聚合,从而在复杂ML任务中实现高效探索 [8][9][12] 核心技术创新:经验驱动的全局记忆层 - 系统通过全局记忆层记录每一次尝试的结构化信息(规划方案、完整代码、性能指标、成败标签),使智能体能够从历史经验中学习 [8][14] - 记忆检索采用BM25文本匹配与FAISS向量语义搜索的混合策略,不同类型的智能体(如改进Agent、草稿Agent、融合Agent)会差异化地查询记忆,以优化经验复用效率与探索多样性 [14] 核心技术创新:多模式代码生成与多智能体协作 - 采用“规划-编码”解耦的工作流,代码生成环节支持三种自适应模式:全量生成模式(快速建立初始解)、分步合成模式(细粒度优化长链路逻辑)、增量修补模式(局部精准迭代以提升效率)[15][17] - 系统构建了一支覆盖ML工程全生命周期的多智能体团队,包含八大专业Agent,系统会根据搜索状态自动调度最合适的智能体进行专业化分工与协作 [8][17] 性能表现与实验结果 - 在MLE-bench基准(涵盖75道Kaggle竞赛题)上,MLEvolve以61.33% ± 1.33%的奖牌率超越所有24小时基线方法,登顶榜单第一 [1][4] - 系统仅使用12小时运算预算,效率是其他顶尖系统24小时标准的两倍,并在高难度竞赛中取得了42.22%的最佳成绩,展现了强大的深度优化与泛化能力 [1][4][19] 平台定位与行业意义 - MLEvolve是上海人工智能实验室“书生”科学发现平台的核心技术之一,作为InternAgent 1.5的验证子系统(方案优化引擎),其图增强搜索与经验驱动记忆机制支撑了从“单点试错”到“全局协同”的探索范式升级 [2][19] - 该系统的成功证明了通过图结构搜索、经验驱动记忆与多智能体协作的融合,AI可以在算法设计任务中实现自主探索与持续进化,这是创新能力的重要体现,也是为科学研究创造新工具的有效路径 [2][21] - 该搜索-记忆-协作范式具有广泛的可迁移性,为从算法设计、数据科学到科研自动化等方案优化类任务提供了通用的进化框架 [20][21]
Jeff Dean最新访谈:未来开发者人均50个智能体,写需求成核心技能
量子位· 2026-03-10 10:13
谷歌的AI战略与模型发展路线 - 公司遵循**帕累托前沿策略**,同时推进两条模型路线:一方面是用于深度推理、复杂数学问题等**高端前沿模型**;另一方面是用于低延迟场景的**高性价比模型**[3][19] - **蒸馏技术**是实现模型高效能的关键,通过该技术,**小模型可以非常接近大模型性能**,实现“下一代Flash ≈ 上一代Pro,甚至更好”[5][6][8][25][27] - 公司认为**低延迟**具有巨大价值,如果延迟降低**20-50倍**,将彻底改变用户体验,低延迟对于未来完成更复杂任务(如编写整个软件包)至关重要[9][29][30][153] 模型能力与多模态发展 - 公司从设计之初就希望Gemini是**多模态模型**,其多模态不仅包括文本、图像、视频、音频等人类感知模态,还包括理解**非人类的模态**(如LIDAR传感器数据、机器人数据、医疗影像、基因组信息等),世界上可能有**数百种不同的数据模态**[9][42][44][45][46] - 模型在**长上下文能力**上取得显著进展,已从“大海捞针”式单针测试转向更复杂的多针检索或真实任务(如从数千页文本或数小时视频中提取信息)[36] - **统一模型时代已经到来**,通用模型的能力已大幅提升,在许多场景下不再需要专用系统,**通用模型会胜出**[105][107][110] 硬件、系统与能效协同设计 - 在硬件与机器学习研究之间必须进行 **“协同设计”** ,硬件设计需预测未来 **2–6年** 的模型趋势,研究团队的洞察能指导在芯片中加入可能带来**10倍提升**的“投机性功能”[13][82][84] - 系统设计以**能量消耗**为第一性原则,从内存搬运数据的能量成本(如从SRAM搬运需**1000皮焦耳**)远高于计算本身(小于**1皮焦耳**),这自然引导出通过**批处理(batching)** 来摊薄成本的设计选择[13][73][76][77] - 公司早期在搜索系统架构上的演进(如2001年将索引**全部放进内存**)本质是从“精确词匹配”走向“语义理解”,这与大语言模型(LLM)的逻辑一脉相承[63][65] 未来研究方向与行业影响预测 - 未来最重要的技能将是 **“写清楚需求”** 或 **“清晰表达需求”** ,因为智能体(Agent)的输出质量完全取决于如何定义问题,这将成为一种**核心技能**[2][144][145][146] - 未来工程师的工作模式可能演变为人均管理**50个智能体实习生**,完成大量并行任务,这种组织沟通效率可能比管理真人团队更高[1][138][139] - 两个关键预测:1) **真正“个性化”的模型**会极其重要,它能访问并理解用户的全部授权历史信息;2) 专用化硬件将推动**模型延迟大幅下降**,从而改变许多应用场景[13][156][158] - 重要的开放研究方向包括:让模型更可靠地完成**更长、更复杂的任务**(可能涉及模型间协作),以及将强化学习扩展到**“不可验证”的领域**[91] 公司内部项目复盘与组织策略 - 公司反思了早期在AI资源分配上的问题,将算力和人才分散在多个团队和方向被内部认为是 **“愚蠢的”** ,这直接促成了整合资源、打造**统一多模态模型Gemini**的项目起点[13][131][133] - 公开基准测试(benchmark)有价值,但理想的生命周期是初始分数在 **10%–30%** ,通过改进提升到**80%–90%** ,超过**95%** 则意义不大[35] - 垂直领域模型(如医疗、法律LLM)仍有意义,应基于强大的基础模型在特定领域数据上强化,理想情况是模块化,通过“可安装知识包”或检索来增强基础模型能力[113][114][116][117]
10秒视频token超5万,O(n²)跑不动?用后训练线性化框架实现1.71倍加速,推理成本大降|CVPR'2026
量子位· 2026-03-10 10:13
行业背景与挑战 - 视频生成进入大规模时代,但计算成本高昂,10秒视频的token数超过5万,自注意力机制的计算复杂度为O(n²),导致模型运行效率低下 [1][2] - 将自注意力替换为线性注意力(O(n))是理想的解决方案,但在视频扩散模型上直接替换会导致生成质量崩溃 [3] LINVIDEO技术方案概述 - LINVIDEO是一个无需数据、无需重新预训练的后训练框架,旨在实现视频扩散模型的高比例线性化替换,同时保持生成质量 [3] - 该框架解决了视频扩散模型“难线性化”的核心问题,即替换过程敏感,不同注意力层对生成质量的影响不均衡,手工选择替换层易导致性能下降或加速不明显 [7] - 论文已被CVPR接收,在Wan 14B模型上,LINVIDEO实现了1.71倍的端到端加速,结合4步蒸馏后,加速比可达20.9倍,且视频质量几乎无损 [5][6] 技术原理与创新 - 在替换层选择上,LINVIDEO提出选择性迁移,将层选择视为可学习的二分类决策问题,让模型自动、渐进地将部分注意力层迁移到线性形式,以最小化性能损失 [15] - 在优化目标上,LINVIDEO提出任意时刻分布匹配,沿采样轨迹在任意时间步上对齐样本分布,能更有效地将线性化后的模型行为拉回原模型,且无需训练辅助模型,效率更高 [11][15] 实验结果与性能 - 实验在Wan 1.3B和Wan 14B模型上进行系统评测,使用VBench的8个维度及VBench-2.0进行综合评估 [16] - 在Wan 1.3B模型上,LINVIDEO的延迟为68.26秒,实现了1.43倍加速,其各项质量评分(如图像质量、运动平滑度等)与基线FlashAttention2(延迟97.32秒)相当或略有提升 [17] - 在Wan 14B模型上,LINVIDEO的延迟为1127秒,实现了1.71倍加速,质量评分保持稳定;结合DMD2蒸馏后,延迟降至92.56秒,实现20.9倍加速,质量仅有轻微下降 [17][19] - 核心结论:LINVIDEO在保持生成质量的前提下,将视频扩散模型的推理速度提升至更实用的水平,报告了1.43至1.71倍的加速,结合蒸馏后延迟可降低15.9至20.9倍 [19] 总结与意义 - LINVIDEO表明,视频扩散模型线性化的难点不在于线性注意力本身,而在于如何迁移模型并恢复质量 [25] - 该框架通过选择性迁移解决替换层选择的敏感性,通过任意时刻分布匹配解决视频场景对齐的效率问题,推动了视频扩散模型从O(n²)向更可扩展的O(n)推理路径发展 [25]
只要1分钟!电脑装满血龙虾,现在跟下载APP似的
量子位· 2026-03-10 10:13
产品发布与核心定位 - 智谱公司最新推出了名为AutoClaw(艺名“澳龙”)的电脑端应用,旨在解决OpenClaw(龙虾)部署难的问题 [5] - 该产品的核心叙事是“史诗级降低门槛”,用户无需租用云电脑、配置环境,只需从官网下载安装,1分钟即可完成部署并使用 [29][30] - 产品定位为将AI Agent技术从极客圈的硬核代码,转变为大众触手可及的超级助理,是今年最平民、最实用的一次技术进步 [38] 核心功能与特性 - 应用支持一键接入飞书等IM工具,接入后用户可在飞书聊天或群聊中直接@澳龙处理任务,无需打开复杂后台 [14][21][37] - 产品预置了超过50个预设Skills(技能),组成龙虾战队,覆盖各种自动化场景,开箱即用 [8][35] - 支持切换多种大模型,包括GLM-5、DeepSeek、Kimi等,并预装了智谱专为OpenClaw场景设计的新模型Pony-Alpha-2 [6][7][33] 技术优势与性能 - 底层接入了智谱自研的AutoGLM-Browser-Agent能力,能稳定完成多步骤、跨页面的复杂浏览器任务流程,超越了原生OpenClaw简单的点击操作能力 [33][34] - 专为Agent任务设计的Pony-Alpha-2模型,相比通用大模型,在处理多步任务时速度更快、更稳定,专门治理任务中途崩溃和幻觉问题 [33] - 结合节前Pony模型的亮眼表现曾带动智谱股价暴涨,市场对Pony-Alpha-2模型的正式发布抱有较高期待 [7] 用户体验与实测案例 - 安装过程极其简便,以MacOS为例,下载安装包后按常规软件安装方式即可,从安装到使用仅需1分钟 [5][10][11] - 实测案例1:可下达指令让澳龙实时跟进B站、抖音、小红书、GitHub、X、Google、百度、知乎等平台,并每隔1小时自动总结与特定主题相关的最新资讯 [2][4] - 实测案例2:可设定定时任务,例如每晚9点10分自动抓取新能源行业最新资讯并推送到飞书聊天界面 [19][21] - 实测案例3:可全权委托澳龙同步发布内容至小红书、X等社交平台 [22] - 实测案例4:可指令澳龙基于GitHub上的开源项目“Star-Office-UI”来制作一个像素办公室 [23][24] 行业意义与市场影响 - 从Chat到Agent,代表了AI交互范式的一次巨大跃迁,澳龙的发布意味着OpenClaw能力的普及化 [25][28] - 在澳龙发布前,部署OpenClaw需要懂Python、配置环境、搞定API Key甚至租用昂贵云电脑,高门槛使得99%的普通用户被劝退,甚至在二手平台催生了“500块钱上门代装龙虾”的生意 [26][27] - 智谱通过澳龙将OpenClaw的权力下放,让普通人拿到了通往Agent时代的车票 [28][30] - Agent时代的硬道理不仅是易于安装,更需要好用且稳定,不能在执行中“降智” [32]
首个物理AI数据基座平台“无垠”落户浙江,专治机器人数据荒,家庭工业商业场景全覆盖
量子位· 2026-03-09 18:05
文章核心观点 - 物理AI(以具身智能和世界模型为代表)是当前科技与投资热点,但其发展面临高质量数据严重短缺的核心瓶颈 [1][3][6] - 行业为解决数据问题,正从单一的真实数据采集、虚拟仿真或互联网视频提取路线,转向虚实融合的综合方案 [2][7][8] - 无问智科发布了业界首个物理AI数据基座平台“无垠”,旨在通过“高质量数据体系”、“高价值场景生态”和“Real2Sim2Real全闭环工具链”三项核心能力,为行业提供大规模、高质量的数据基础设施,打通从训练、测评到商业落地的全链路 [11][15][17][23][29] 行业背景与痛点 - 2026年,具身智能和世界模型是火爆赛道,年内已合计吸金超300亿元 [1] - 具身智能赛道融资活跃,开年2个月融资超20起,行业累计融资金额已超200亿元 [3] - 物理AI(具身智能)面临的最大痛点之一是高质量数据极度稀缺 [6] - 与LLM拥有海量互联网文本/图片数据不同,物理AI需要带物理反馈和交互的多模态数据,当前行业数据供给量与通用具身智能需求量的差距可能在一千万倍以上 [6] - 行业现有的三种数据解决方案各有弊端:真实数据采集成本极高、效率极低;虚拟仿真存在Sim2Real鸿沟;提取互联网视频则利用难度高且缺失物理模态 [7][8] “无垠”数据基座平台的核心能力 - 平台首次提出“数据基座”概念,具备三项核心能力 [11] - 高质量数据体系:结合大量真实场景采集数据与大规模高保真合成数据 [11] - 高价值场景生态:依托仿真技术实现大规模场景泛化与模拟,联合生态伙伴覆盖大量可落地真实场景 [11] - Real2Sim2Real全闭环工具链:实现从数据采集、模型训练、场景测评到产业落地的端到端打通 [11] - 平台已积累超1000TB规模的数据,并宣布将开源1万小时高质量数据以解行业燃眉之急 [15] 平台的技术实现路径(虚实融合) - 数据层:通过多源异构采集与多模态合成,解决数据稀缺与质量难题 [17] - 场景层:实现从训练场1:1复刻到德清全域、长三角高价值真实终端场景的虚实结合全覆盖 [17] - 工具链层:以数据采集范式、跨本体数据迁移、自动化标注、生成式仿真、智能化评测等技术打造全链路闭环工具链 [17] - 应用层:最终实现“训练—测评—落地”持续优化闭环 [17] - 真实数据采集方式全面,包括VR遥操、外骨骼遥操作、UMI、动作捕捉等多种模态,为行业最多模态的采集方式 [18] - 提供跨本体数据迁移工具链,解决数据不通用、企业闭门造车的问题 [18] - 通过高保真生成式仿真技术(如与地平线联合发布的EmbodiedGen数字表亲和数字远亲功能),将真实场景1:1还原至虚拟世界并可任意改变,实现真实数据的指数级放大 [18] - 平台已拥有百万级“simready资产”(可实现毫米级物理交互的仿真物体),覆盖全场景、全品类、全模态 [20] 平台提供的产业价值与生态 - 平台不仅提供数据,还帮助行业打通训练、评测和落地的整个链路 [23] - 训练环节:提供的数据覆盖物流仓储、家庭服务、酒店文旅、工业制造、办公服务和商业零售等六大核心作业场景,支撑模型实现更强泛化性 [23] - 测评环节:提供具身仿真评测框架,支持仿真模拟环境和世界模型环境评测,可自定义任务并进行规则或开放式评测 [23] - 落地环节:基于生态合作伙伴开放的高价值场景,帮助企业打造标杆案例,展示机器人“干活”价值 [25] - 生态合作案例:星动纪元展示了利用平台数据打造的具身智能通用物流场景解决方案 [25];中国优选运营宣布第一家未来新零售旗舰门店落地长三角(德清)具身智能数据采集训练场 [27] - 平台已吸引五十多家生态合作企业,形成行业最豪华的生态阵容 [29] - 与地平线、地瓜机器人达成深度战略合作,旨在形成“算力(地瓜机器人)+算法(地平线)+数据(无问智科)”的完整基座能力,打通研发到量产的最后一公里 [31] 公司背景与行业洞察 - 无问智科创立于2022年11月,创始人兼CEO刘盛翔是中国最早的自动驾驶开拓者之一,曾主导构建百度Apollo自动驾驶数据与测试验证体系 [34][36] - 创业初衷是洞察到物理AI缺乏高质量数据的行业痛点 [36] - 创业2个月后即与地平线达成合作,地平线不仅是其深度合作伙伴和首位投资人,其创始人余凯还担任无问智科首席顾问 [38] - 自动驾驶与具身智能赛道技术有交集、供应链高度重合,自动驾驶玩家的经验可在具身智能领域复用 [38] - 但具身智能缺乏标准化的数据采集方案、大规模采集方法及生产使用数据的工具链,因此专业的第三方数据基础设施对行业意义非凡 [39]