大型语言模型
搜索文档
谷歌推出Gemini3,芯片ETF(512760)小幅回调,近20日净流入超4亿元
每日经济新闻· 2025-11-19 14:53
公司产品发布 - Alphabet旗下谷歌发布新一代大型语言模型Gemini3并立即部署至谷歌搜索的AI模式、Gemini应用、API接口、VertexAI等核心产品 [1] - 公司首席执行官将Gemini3描述为"我们最智能的模型" [1] - 谷歌正式推出"Gemini Agents"(双子座代理)首次将能执行多步骤任务的AI助手以系统化方式向消费者开放 [1] 产品功能演示 - Gemini Agent可自动整理用户邮箱并提取关键信息 [1] - 产品能规划完整旅行行程包括日程、交通与预算要素 [1] - AI助手可执行具备多个步骤链条的复杂任务并在不同应用场景中作为可调用助手运行 [1] 行业指数构成 - 芯片ETF(512760)跟踪中华半导体芯片指数(990001)该指数聚焦于中国半导体芯片行业 [1] - 指数选取涉及材料、设备、设计、制造、封装和测试等环节的上市公司证券作为样本反映半导体芯片相关上市公司证券整体表现 [1] - 指数精选不超过40只成分股侧重信息技术领域集中体现行业内的核心资产与技术发展态势 [1]
科技博主曝光OpenAI烧钱真相:2033年才能勉强覆盖推理成本,甚至“永远”亏损
金十数据· 2025-11-13 19:21
文章核心观点 - OpenAI在微软Azure云平台上的季度推理成本极高,导致其运营成本远超外界先前估计[1] - 微软作为主要资助方,在与OpenAI的收入分成协议中获益颇丰[1] - 如果披露数据属实,OpenAI乃至整个通用大型语言模型行业的商业模式将面临严峻质疑[7] OpenAI运营成本分析 - 据称OpenAI在2025年前六个月仅在推理环节就花费近50亿美元,而同期报道的现金消耗为25亿美元,营收为43亿美元[4] - 过去七个自然季度中,OpenAI在Azure上的推理计算支出据称已超过124亿美元[7] - 文章引用的数据仅涉及推理支出,不包括模型训练等更高强度任务的成本[3] 微软与OpenAI合作关系 - 微软据称可获得OpenAI收入的20%作为分成[4] - 除了OpenAI收入分成,微软还会向OpenAI提供部分Azure和Bing业务收入的20%分成,此外可能还有版税支付[4] - 双方合作关系复杂且部分互惠,具有双向性质,无法用单一数据概括[4] - 针对披露的数据,微软回应称"不便透露具体数字,但数据并不完全准确",OpenAI则建议向微软咨询[3] OpenAI财务状况推算 - 通过将微软收入分成数字乘以五,可推算出OpenAI的集团营收估算值,但由于合作关系的双向性,此算法结果偏低[4] - 过去七个自然季度,OpenAI的最低营收估算仅为68亿美元,远低于同期124亿美元的推理支出[7] - 根据现有数据推算,OpenAI集团最低营收大约要到2033年才能覆盖推理成本[7] - 若扣除微软20%的收入分成,OpenAI的最低营收估算几乎永远无法覆盖其推理支出[7] 行业商业模式影响 - 披露的数据显示OpenAI的营收与运营成本之间存在巨大差距,远超此前外界报道[4][7] - 如果数据属实,通用型大型语言模型供应商的商业模式将面临质疑[7] - 行业可能面临两种选择:运营成本必须大幅下降,或客户收费必须显著提升,但目前尚未看到这两种趋势出现[7]
NeurIPS 2025 | 中科大、港中深、通义千问联合发布CoRT:仅30个样本教会大模型高效推理,token消耗降低50%
机器之心· 2025-11-12 21:23
文章核心观点 - 联合研究团队提出名为CoRT的后训练框架,旨在教会大型语言模型高效利用代码工具进行推理,以解决其在精确数学计算中效率低下和易出错的问题[2][3] - CoRT框架通过创新的数据合成策略和多阶段训练流程,显著提升了模型的数学推理能力和效率,实现了性能与效率的双重飞跃[3][8][20] 方法核心 - CoRT框架核心思想是通过高质量数据和精细化训练,重塑模型与工具的交互模式,使其从低效的“验证”思维转向高效的“计算”思维[8] - 框架采用从“数据冷启动”到“智能体调优”的三步走策略,包括提示工程、多阶段训练流程和强化学习[8][9][13] 数据合成策略 - 研究团队提出名为“提示工程”的全新数据合成策略,在推理路径关键决策点策略性注入引导性提示以纠正模型低效行为[9] - 当模型试图手动进行复杂计算时,提示“用python代码来简化推理”引导其立即计算[10] - 当模型得到代码结果后试图手动验证时,提示“不需要怀疑python计算的准确性”打消其结果不信任[11] - 该方法遵循数据质量重于数量原则,仅手动标注30个高质量样本就为后续训练奠定坚实基础[11] 多阶段训练流程 - 监督微调阶段使用30个“提示工程”样本进行初步微调,让模型快速学习高效交互的基本模式[13] - 拒绝采样微调阶段自动过滤存在不良行为的轨迹,只保留优质轨迹用于进一步训练[13] - 强化学习阶段将模型视为智能体,通过奖励函数让模型在与代码解释器环境的交互中自主学习最优工具使用策略[13] 性能与效率成果 - CoRT为DeepSeek-R1-32B带来4%的绝对精度提升,为1.5B模型带来高达8%的绝对提升[20] - 与纯自然语言推理基线模型相比,CoRT将32B模型的token消耗降低约30%,1.5B模型降低50%[20] - 传统方法中模型将代码用于“验证”占比68.2%,CoRT成功将模型行为转变为以“计算”为核心占比51.1%[20] - 在未见过化学问题测试中,CoRT训练模型能自发使用未在训练中出现过的专业工具库RDKit,使用率高达81.3%[20] 行业意义与展望 - CoRT框架为解决大型语言模型在精确推理领域的短板提供了高样本效率、高计算效率的全新路径[16] - 该工作展示了构建更强大、更可靠、更经济的AI智能体系统的巨大潜力[17] - 为AI在科学发现、教育辅助、工程设计等需要精确推理领域的落地应用扫清了障碍[17]
一文读懂人工智能在供应链领域的典型应用
36氪· 2025-11-07 14:31
人工智能术语框架 - 人工智能是一个广泛领域,专注于创造能执行需要类似人类智能任务的机器,如学习、推理或决策[4] - 机器学习是人工智能的一个分支,使计算机无需显式编程即可从数据中学习,能够识别模式并基于历史信息做出预测[4] - 深度学习是更高级的机器学习形式,使用多层人工神经网络,擅长处理复杂的高维数据,如图像、视频和自然语言[4] - 生成式人工智能旨在根据从大型数据集中学习到的模式创建新内容,包括文本、图像、音频甚至代码[4] 人工智能的商业重要性 - 人工智能正以前所未有的速度被广泛应用,因其直接关联企业的效率、盈利能力和竞争力,公司正积极将其融入日常运营以实现大规模快速决策[6] - 人工智能的真正影响力在于能够将预测转化为自动行动,如触发警报、推荐补货数量、优先选择配送路线或在供应风险演变成中断之前发出预警[6] - 人工智能在数据量庞大、决策可重复、信号嘈杂或快速变化的环境中尤其强大,非常适合市场营销和供应链运营[6] - 最有效的人工智能系统是在人工监督下运行的决策系统,旨在增强而非取代判断,需使用MAPE、MAE等传统统计精度指标进行持续评估[6] 人工智能在市场营销中的应用 - 个性化功能利用机器学习技术根据用户过去的行为定制内容,分析点击、购买记录、滚动模式和会话行为等信号以确定最可能促成转化的信息或产品[12] - 视觉推荐无需用户明确要求即可优化显示内容,利用余弦相似度等方法将用户与相似内容进行匹配,应用于亚马逊的产品轮播和Netflix的推荐板块[12] - 由生成式人工智能驱动的聊天机器人已成为标准客户触点,可回答问题、推荐后续步骤并全天候完成交易,必要时转接人工客服[12] - 预测分析利用机器学习模型在客户流失或营销活动效果等结果发生之前进行预测,通过比较线性回归和XGBoost等模型确定预测销售结果的最佳模型[12] 市场营销与供应链的协同 - 营销活动会引发需求冲击,成功的广告宣传、促销或产品发布可立即刺激需求,人工智能应帮助预测需求并自动标记其对供应链的影响[15] - 将市场营销和供应链联系起来的是共享数据,双方必须在SKU标识符、地理区域、销售渠道、日历和促销元数据方面保持一致[15] - 市场营销关注点击率和订单量,供应链关注订单满足率和准时足量交付率,当两者对绩效的看法不一致时会导致客户不满和运营效率低下[15] - 供应链漏斗是销售漏斗的运作镜像,始于市场营销活动产生的需求信号,经供应计划、生产或采购、物流配送,最终到达客户服务和交付绩效[16] 现代供应链挑战及人工智能应用场景 - 现代供应链面临复杂性、不确定性、速度和可持续发展四项普遍挑战,复杂性源于管理多层级网络、漫长交付周期及日益增多的限制因素[19] - 不确定性由促销需求激增、天气干扰、季节性变化及牛鞭效应等因素造成,需求的微小变化会在上游被放大[19] - 企业越来越依赖人工智能来更准确地预测需求并在问题发生之前采取积极主动措施,人工智能在预测和需求规划中发挥关键作用[19] 人工智能在预测和需求规划中的应用 - 现代人工智能预测模型通常将ARIMA或ETS等时间序列方法与XGBoost或神经网络等机器学习技术相结合,时间序列模型分析历史需求数据检测季节性和周期性模式[22] - 为评估模型可靠性,需使用平均绝对百分比误差以百分比形式衡量预测值与实际值的偏差,平均绝对误差以数据本身相同单位表示平均预测误差[22] - 偏差衡量预测是否持续高估或低估需求,长期高估导致库存过剩,低估导致缺货,F1分数在预测客户流失等事件时平衡精确率和召回率[22] - 企业通常先进行更高层次预测如全国总需求,再细化到特定地区、渠道或SKU,人工智能能够随新数据流入实时更新预测结果[23] 人工智能在库存优化中的应用 - 人工智能可根据产品重要性、周转率或利润贡献对其进行分类,自动确定合适的服务水平目标,并根据预测误差和交货周期波动计算安全库存[26] - 通过多级优化降低系统总库存,人工智能评估整个网络找出存放库存最佳位置,这种系统级视角可降低整体库存成本同时提高服务一致性[26] - 人工智能可根据最新需求数据、供应状况和绩效结果每周甚至每天自动更新补货点和订货量,消除人工库存盘点的滞后性和猜测性[26] - 人工智能模型可模拟不同场景,确定库存持有成本与缺货风险之间的理想平衡点,使领导者能够充分了解财务影响后再做决策[26] 人工智能在物流和运输领域的应用 - 具有时间窗口和实时重新规划功能的路径规划意味着人工智能可根据交付时间承诺不断解决车辆路径问题,并在途中出现交通、天气或新订单时立即重新优化路线[29] - 预计到达时间预测利用人工智能结合实时交通状况和历史驾驶员表现,比依赖通用估计更准确地预测到达时间[29] - 预测性维护可监控车队和物料搬运设备,在故障发生之前检测到故障,减少停机时间并防止意外故障[29] - 码头动态调度功能使人工智能能够根据当前拥堵情况、货运量和紧急程度,自动将卡车分配到最有效的装卸位置以保持作业顺利进行[29] 人工智能在供应商和风险管理中的应用 - 供应商评分卡使人工智能能够追踪多个供应商的准时交付率、百万分之质量缺陷率和交货周期差异,持续评估数据并自动标记问题[33] - 预警系统利用人工智能技术监测新闻、天气预报、港口活动和地缘政治数据,在潜在干扰影响运营之前发现并应对,使企业能够提前制定备选方案[33] - 自然语言处理可以读取供应商合同,提取重要条款如交货周期、违约金条款或排他性限制,并提醒决策者当前绩效是否偏离约定范围[33] 人工智能在仓储和自动化领域的应用 - 计算机视觉利用摄像头和人工智能技术实时检测错拣商品、损坏商品或库存数量错误,在商品到达顾客手中之前减少错误,比人工盘点有显著进步[37] - 任务编排通过根据当前需求和可用产能自动协调人类工人和自主机器人,来确定谁应该做什么以及何时做[37] - 任务优化通过分配优先级、管理队列以及优化任务在设施内的执行地点来改善工作流程,仿真软件可利用机器学习模拟不同优化方案[37] - 货位优化根据ABC周转率对库存进行排序,人工智能将周转率最高的商品放置在靠近包装或装货区的位置,以减少运输时间并提高吞吐量[37] 人工智能在可持续发展和ESG中的应用 - 按发货或SKU进行碳核算可以让人工智能计算每次产品运输对环境的影响,并在做出决策之前评估减少燃料排放的替代路线[40] - 减少浪费利用人工智能对退货进行分类,优先考虑哪些产品可以重新入库、回收或翻新,还可根据保质期预测重新订购易腐烂商品[40] - 循环流程使人工智能能够推荐维修、翻新或再利用方案,而不是默认丢弃,有助于向循环供应链转型使产品重新循环利用[40] 机器学习技术分类 - 监督学习在预期结果已知时使用,人工智能通过对已标记示例进行训练并学习预测未来值,常用于需求预测、预计到达时间预测和质量评分[44] - 无监督学习不需要预先标记结果,人工智能自行寻找数据中的结构,如将相似门店或SKU聚类在一起或检测设备传感器数据中的异常情况[44] - 强化学习通过反复试错做出决策,并随时间从行动结果中学习,在不确定性较高环境中如动态定价或调整库存策略时尤其有用[44] 机器学习模型演进 - 线性回归是应用最广泛、最基础的机器学习模型之一,根据过去行为预测未来结果,速度快、易于解释,广泛应用于高管仪表盘和财务建模[47] - 决策树根据简单决策规则将数据划分为多个分支,具有很强的可解释性,适用于预测和表格形式的业务数据[50] - XGBoost是一种先进集成方法,构建多个小型决策树并将它们组合提高准确率,擅长处理结构化供应链和营销数据中多种输入因素的交互作用[50] - 神经网络在识别复杂模式方面非常强大,适用于非结构化数据或基于传感器的数据,如图像、音频或实时物联网数据流[50] 大型语言模型与迁移学习 - 大型语言模型利用海量公共文本数据进行训练,学习人类语言结构和含义,能够理解并回应从未见过的句子,具有泛化能力[56] - 迁移学习利用规模较小、特定于业务的数据集对预训练的语言学习模型进行微调,使人工智能在保留广泛语言理解能力的同时针对特定领域进行专门化训练[56] - 检索增强生成技术使人工智能不仅依赖于训练期间学到的知识,还会主动从可信来源实时检索外部知识后再生成响应[59] 人工智能统一视角与新兴趋势 - 分层模型中,营销需求信号如点击率、营销活动效果、网站流量和预购意向被实时捕捉为意向信号,输入到人工智能需求预测层[63] - 数字孪生是真实供应链的虚拟副本,可模拟港口关闭、供应商延迟或需求激增等中断情况,在实际发生任何事件之前测试应对措施[66] - 生成式人工智能智能体能够更主动地进行规划工作,如总结风险、制定采购建议,并根据运营数据创建标准操作流程,自主运行监控实时数据[66] - 大型语言模型副驾驶允许规划人员以对话方式与供应链系统进行交互,获得清晰易懂且基于公司内部数据的答案[67]
垂直领域小型语言模型的优势
36氪· 2025-11-04 19:13
行业范式转变 - 人工智能行业正从“越大越好”的模型规模竞赛,转向注重效率的小型语言模型部署 [1][4] - 企业人工智能部署进入生产阶段,40%至70%的企业级AI任务可通过小型语言模型更高效处理 [4] - 小型语言模型具备速度快10倍、部署维护成本降低5-20倍、更可靠及设备端处理注重隐私等特点 [4] 小型语言模型定义与特点 - 小型语言模型是参数通常少于100亿的轻量级模型,针对特定任务或设备端任务进行优化 [4][13] - 典型参数范围为1亿至30亿,示例包括Microsoft Phi-3 Mi、Mistral 7B、GPT-4o mini等 [13] - 核心优势包括快速推理、资源高效、成本效益高、注重隐私、易于微调及环保 [21] 大型语言模型对比 - 大型语言模型通常拥有100亿到1万亿以上参数,擅长处理复杂的通用任务 [14] - 示例包括参数达700亿的LLaMA 3 70B、估计约1万亿参数的GPT-4及数千亿参数的Claude 3 [15] - 与小型语言模型相比,大型语言模型资源消耗极高,但复杂任务处理能力更强 [15][19] 关键技术驱动因素 - 知识蒸馏等智能模型架构使小型模型在参数减少40%情况下保持97%性能 [20] - CPU优化运行时框架如llama.cpp、GGUF实现在标准CPU上接近GPU的效率 [11][27] - 量化技术将模型从16位转换为8位再至4位精度,显著降低内存需求并加快推理速度 [11][27] 成本与经济效益 - 智能体人工智能市场规模预计从2024年52亿美元增长至2034年2000亿美元 [5] - 小型语言模型部署相比大型语言模型可节省5-10倍成本,响应时间从500-2000毫秒提升至50-200毫秒 [35][36][37] - 银行利用特定任务小型语言模型进行欺诈检测,相比大型模型方案节省10到100倍成本 [34] 应用场景与部署 - 边缘计算部署涵盖智能手机、工业物联网传感器、医疗设备、自动驾驶车辆及智能家居系统 [30][32] - 混合部署模式结合大型语言模型负责复杂推理,小型语言模型管理高频次特定任务操作 [22][27] - GGUF格式实现单文件可移植性,支持混合精度量化,在CPU上高效运行 [25][28] 未来发展趋势 - 模块化AI生态系统由专门小型语言模型协作,针对推理、视觉或编码等特定任务优化 [39] - 小型语言模型低能源需求对可持续AI部署至关重要,减少AI应用的碳足迹 [40] - 移动芯片设计和小型模型优化技术进步使得复杂AI可直接在智能手机上运行,无需云连接 [41]
AI大模型投资比赛落幕,阿里通义千问 Qwen 以 22.32% 收益率夺冠
搜狐财经· 2025-11-04 11:46
实验核心观点 - 美国研究机构Nof1发起的首届Alpha Arena实盘测试结束,阿里旗下通义千问Qwen3-Max以22.32%的收益率获得投资冠军 [1] - 实验旨在动态竞争的真实环境中检验六大顶级AI大语言模型在量化交易领域的能力,而非单纯选出最强模型 [3][5] - 实验试图回答大型语言模型在无特定微调、仅凭数值数据输入的情况下,能否作为零样本系统交易模型这一基本问题 [12] 实验设计与规则 - 每个模型被注入1万美元起始资金,在Hyperliquid平台交易包括BTC、ETH、SOL等在内的加密货币永续合约 [11] - 模型决策仅能基于价格、成交量、技术指标等数值市场数据,不允许查阅新闻或时事信息 [11] - 模型目标为最大化盈亏,并使用夏普比率作为风险调整后指标,交易动作被简化为买入、卖出、持有、平仓 [11] - 所有模型使用相同的提示词、数据接口,且无特定微调,以确保环境一致 [11] 初步结果与观察 - 各模型在交易风格、风险偏好、持仓时间、交易频率上存在显著差异,例如某些模型做空次数较多而另一些几乎不做空,持仓时间和交易频率也各不相同 [9] - 研究观察到模型对数据格式敏感,例如调整提示中数据顺序为新到旧或旧到新,即可修复部分模型因误读数据产生的错误 [9] - 实验存在样本有限、运行时间短、模型无往绩历史和无累积学习能力等局限,团队表示将在下一季引入更多控制和更强统计实力 [9]
三星加速追赶,台积电毫不在意
半导体芯闻· 2025-10-28 18:34
台积电技术领先性与竞争格局 - 和硕董事长童子贤认为台积电的2纳米和3纳米工艺仍然领先于三星和英特尔[2] - 尽管特斯拉将部分A15芯片订单交给三星德克萨斯工厂并将A16芯片转向三星2纳米工艺但台积电无需担心[2] - 童子贤承认美国可能想支持三星但否认存在危机并指出三星和芯片巨头仍需要台积电的帮助[2] 全球人工智能投资与供应链格局 - 美国目前在全球人工智能投资中处于领先地位其次是中国大陆[2] - 只有少数国家拥有构建大型人工智能模型的资金和人才中国台湾通过供应半导体等关键硬件已融入美国主导的AI供应链[3] - 美国现在严重依赖中国台湾的散热器主板和服务器机柜即使产能变化台湾在AI基础设施领域地位稳固[3] 中美科技竞争与AI技术发展 - 比技术竞争更大的问题是中美之间长期的科技竞争[3] - 2015至2017年间谷歌的研究塑造了现代AI OpenAI据此构建GPT谷歌随后推出Gemini美国目前拥有不足10个大型语言模型[3] - 中国最初模仿美国但现在正在打造自己的AI模式连接日本韩国和中国台湾的供应链虽未经过真正考验但在中美各自运营AI技术栈时至关重要[3]
赋予“灵魂”的教育机器人,AI数字伙伴如何破解个性化学习难题?
机器人大讲堂· 2025-10-19 12:03
教育机器人行业现状与挑战 - 教育机器人作为创新工具为传统课堂注入活力,在语言课和STEM教育中提升学习动机[1] - 行业面临设备数量有限导致学生轮流使用、互动时间受限以及高度同质化设计等问题[1] - 约60%的学生对教育机器人的兴趣仅能维持1-2个月,存在显著的短期兴趣衰减现象[1] AI个性化机器人框架创新 - 研究团队提出AI个性化机器人框架解决方案,为每个机器人配备拥有灵魂的AI数字伙伴[2] - 框架基于数字孪生技术和大型语言模型,实现物理实体与虚拟伙伴的持续连接及动态响应[3] - 核心架构采用分层设计,包含基础设施层、数据交互层和应用表现层,支持一个实体机器人对应多个虚拟伙伴的高效资源利用模式[4] 个性化学习机制设计 - 学习模型分为课外准备和课堂展示两个阶段,学生通过移动终端与数字伙伴持续互动[5] - 在课外阶段,学生通过完成学习任务获得虚拟货币,用于定制伙伴外观和行为模式,大型语言模型提供情境化反馈[5] - 在课堂阶段,数字伙伴的灵魂被转移到共享实体机器人上,增强学习认同感和成果展示[8] 实证研究结果分析 - 实验在某高校酒店管理专业开展,90名学生分为三组进行十周对比研究,每周课程100分钟[9] - 实验组A(AI个性化机器人)后测成绩显著优于其他两组,效应量达到0.21,表明个性化干预具有实质性教育价值[11] - 实验组A在主人翁意识得分和课外学习活动参与度方面显著更高,学习频率持续上升,证实框架对长期参与度的提升作用[12] 行业应用与推广价值 - AI个性化机器人框架通过数字伙伴加实体呈现的模式,为教育机器人规模化应用提供可行路径,适应有限预算下的普及需求[14] - 框架的模块化设计具备良好学科适应性,可通过调整学习脚本应用于语言学习、STEM教育和职业培训等领域[14] - 文章末尾列举了工业机器人、服务与特种机器人、医疗机器人、人形机器人等细分领域的企业名单,显示行业生态丰富[18][19][20][21][22][23][24]
美股异动|阿里巴巴连跌五日背后市场预期复杂 野村上调目标价却难挡颓势
新浪财经· 2025-10-10 06:49
股价表现与市场反应 - 公司股票在10月9日持续走低,跌幅达4.11% [1] - 公司股票已连续五个交易日下跌,累计跌幅达到8.27% [1] 机构评级与目标价调整 - 野村维持公司“买入”评级,并将目标价从170美元上调至215美元 [1] - 野村对阿里云估值提升持积极态度,支持了目标价上调 [1] - 中金公司维持“跑赢行业”评级,认为公司有超过11%的股价上涨空间 [1] 财务预测调整 - 野村将公司盈利预测下调了4.7%,主要归因于对大型语言模型投资增加导致部分业务部门亏损扩大 [1] - 中金公司下调了公司收入预测,并对非通用准则下的净利润预测进行了调整,主要由于闪购及其他业务亏损扩大 [1] 业务战略与投资布局 - 公司未来扩展大型语言模型用户基础的战略获得野村积极态度,尽管短期内货币化效果尚未明显 [1] - 公司SEO团队通过搜索引擎优化提高了自然流量获取能力,优化范围从传统站内方法扩展到全域SEO [2] - 技术优化降低了公司获客成本并加强了用户体验 [2] 估值方法与股东信心 - 中金公司采用SOTP估值法,给予电商业务和云业务不同的估值倍数,显示出对公司未来增长的信心 [1] - 公司大股东的惜售行为反映出对公司未来的信心 [2]
机器人「看片」自学新技能:NovaFlow从生成视频中提取动作流,实现零样本操控
机器之心· 2025-10-09 10:24
NovaFlow 框架概述 - 提出一种名为 NovaFlow 的全新自动操作框架,其核心目标是绕过机器人学习中的数据瓶颈,实现无需真实演示或训练的零样本复杂操控任务 [2] - 该框架的关键创新在于将任务理解与底层控制解耦,并利用大型视频生成模型中蕴含的常识知识,而非依赖昂贵的机器人亲身经历数据 [4] - 通过让机器人观看由视频模型生成的任务视频,并从中提炼出“可执行3D对象流”作为任务表征,指导机器人执行动作 [2] 核心技术:可执行3D对象流 - 引入核心中间表征“可执行3D对象流”,本质是目标物体在三维空间中运动轨迹的点云集合,只描述物体本身应如何移动 [5] - 这种以物体为中心的设计是实现跨不同机器人平台泛化的关键,使得方法与具体机器人形态无关 [5] - 该动作流作为抽象的任务表征,可被后续模块转化为针对刚性、关节体和可变形物体的具体机器人动作序列 [7][15] 动作流生成器工作流程 - 流程始于使用先进视频生成模型,根据初始场景RGB-D图像和文本指令生成一段任务教学视频 [9][12] - 通过单目视频深度估计算法将2D视频提升至3D空间,并利用第一帧真实深度图对估计深度进行校准,以解决系统性误差 [13] - 使用3D点追踪模型密集追踪场景运动,再通过开放词汇对象检测分割模型提取目标物体的运动轨迹,得到纯净的3D对象流 [14] - 为应对视频模型可能产生的“幻觉”,引入拒绝采样步骤,利用视觉语言模型评估并选择最合理的候选动作流 [14] 动作流执行器控制策略 - 针对刚性物体和铰接物体,通过分析动作流中关键点变化,计算物体在每个时间步的6D位姿,进而生成机械臂末端执行器的位姿序列和关节指令 [20] - 针对可变形物体,将3D动作流用作密集追踪目标,指导基于模型的规划器进行操作,通过粒子动力学模型预测形态变化并优化机器人动作以拟合理想状态 [20] 实验验证与性能表现 - 在Franka机械臂和波士顿动力Spot四足机器人上进行了广泛实验,任务涵盖刚性物体、铰接物体和可变形物体三大类 [16] - 实验结果显示,NovaFlow在所有零样本方法中表现最佳,其成功率甚至超过了使用10个和30个真实示教数据训练的模仿学习策略 [18][19] - 成功率的优势归因于其精确的3D动作表示,相比依赖2D光流的方法,具备更好的3D感知和长期一致性 [19] 挑战与未来方向 - 当前方法的主要局限性在于物理执行的“最后一公里”,如抓取失败或意外物理动态导致的执行偏差,暴露了开环规划系统的脆弱性 [23] - 未来的重要研究方向是开发闭环反馈系统,通过实时感知环境反馈来动态调整生成的动作流,以增强对现实世界不确定性和干扰的鲁棒性 [23]