TacRefineNet
搜索文档
小米的首代机器人VLA大模型来了,丝滑赛德芙,推理延迟仅80ms
36氪· 2026-02-13 08:58
行业背景与趋势 - 具身机器人已成为继AI大模型后,下一轮科技叙事的中心,吸引了大量资本和媒体关注 [2] - 行业目前处于“繁花似锦的视觉盛宴”与对“真实生产力”迫切期待的交叉点,正经历一场范式演进 [3] - 机器人成为生产力的核心在于“自主性”,需要实现从“人工辅助”到一人监管数十甚至上千台机器人的跨越 [3] 小米公司技术突破:Xiaomi-Robotics-0模型 - 模型核心目标是解决具身机器人“间歇停顿”问题,实现低延迟、高频率的实时控制 [4] - 模型总参数为4.7B,在消费级显卡(RTX 4090)上实现80ms推理延迟和30Hz实时控制频率 [4][14] - 模型在LIBERO、CALVIN、SimplerEnv等主流仿真与真实环境基准测试中均刷新了SOTA(State-of-the-Art)记录 [4][28] - 该模型为开源模型,所有架构细节和算法方案均已公开 [5][42] 核心技术架构与创新 - 采用“双脑协同”的MoT架构:VLM(视觉语言模型)作为“大脑”负责全局理解与决策;16层DiT(Diffusion Transformer)作为“小脑”负责生成连续动作块 [7][8][9] - 通过流匹配(flow matching)技术,将推理所需采样步数从传统扩散模型的数十至数百步压缩至五步,显著缩短推理链路 [12] - “大脑”与“小脑”通过KV缓存松耦合连接,复用VLM的KV Cache,减少重复计算,降低延迟 [13][14] - 采用两阶段预训练策略:第一阶段对齐视觉与动作空间,第二阶段冻结VLM并单独训练DiT,以在引入动作能力后保护原有的视觉语言理解能力 [16][17][19] - 在后训练阶段引入Λ形注意力掩码机制,解决传统异步执行导致的“动作惯性”问题,使模型在保证动作连续性的同时能根据环境实时修正 [22][24] 模型性能表现 - 在VLA仿真基准测试中全面领先:在LIBERO、CALVIN等六个仿真环境中,超过包括π0、π0.5、OpenVLA、RT-1、RT-2在内的约30个模型 [28] - 在CALVIN基准测试的“ABCD->D”设置中,连续完成5个任务的成功率达到91.8%,平均任务完成长度(Avg. Len.)为4.80,领先其他模型 [29] - 在Libero-Object任务上达到100%成功率,在Libero测试中平均成绩为98.7%,位列前列 [29][30] - 在MMBench、ScienceQA等九个视觉语言理解基准测试中,大多数指标高于对比模型,证明其未因动作能力而牺牲理解能力 [31][32] - 在真实物理任务中表现优异:在“叠毛巾”任务中,处理6张不同毛巾并连续作业30分钟,保持高成功率与高吞吐;在“拆卸乐高”任务中,在MA与LA-10场景达到100%成功率,吞吐量领先约25% [34] 公司战略与行业影响 - 小米在具身智能领域选择“务实进厂派”路线,专注于工业落地所需的稳定性、吞吐量、可部署性及环境适应性 [36][39][41] - 公司技术布局构成“眼-脑-手”协同体系:Xiaomi-Robotics-0提供快速响应与连续控制,近期开源的TacRefineNet触觉模型提供末端精细调整,以解决工业非结构化环境作业难题 [41] - 开源行为降低了行业门槛,为中小开发者提供了高质量基础模型,推动了技术讨论从营销转向工程细节,承担了行业基础设施建设者的角色 [42][43] - 在重资产、长周期的机器人赛道,公司的开放姿态展现了科技大厂的担当 [44]
小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源
量子位· 2026-02-12 20:42
行业背景与核心挑战 - 具身机器人已成为继AI大模型后下一轮科技叙事的中心,大厂小厂密集入局,资本追逐、媒体传播[2] - 行业处于一个矛盾坐标点:一边是繁花似锦的视觉盛宴和高难度动作刷屏,另一边是行业对机器人“真实价值”和释放生产力的迫切期待[3] - 机器人要真正成为生产力,核心含金量在于“自主性”,当前“人工辅助”或“单步遥操”模式需要人类高频次介入,打断自动化流程[4][5] - 只有当一个人能同时监管十台甚至一百台、一千台机器人,且每台机器人都能在长时间任务中持续决策、修正和执行时,具身智能才不是空谈[6] Xiaomi-Robotics-0模型概述与核心性能 - 小米发布首个具身VLA大模型Xiaomi-Robotics-0,旨在解决具身机器人间歇停顿问题[7] - 模型参数规模为4.7B,实现80ms推理延迟、30Hz实时控制频率,可在消费级显卡(RTX 4090)上流畅运行[8][21] - 模型在LIBERO、CALVIN、SimplerEnv等仿真与真实环境的主流基准上均刷新了SOTA(State-of-the-Art)[9] - 该模型为开源模型[10] 技术创新一:双脑协同架构 - 采用MoT架构,但将工作细分为“大脑”(VLM视觉语言模型)和“小脑”(16层DiT扩散Transformer)[16] - 大脑负责全局感知与决策,小脑专门负责输出连续动作块,改变了动作生成的粒度[17] - 传统离散token方式对连续动作进行离散化编码,精度易被截断,轨迹会有细微不连续[18] - DiT配合流匹配技术可直接生成连续动作向量,使动作更平滑灵巧[19] - 通过流匹配训练,推理所需采样步数从传统扩散模型的数十至数百步压缩至五步,显著缩短推理链路[19] - DiT与底层VLM同为Transformer结构,可直接复用VLM的KV Cache,减少重复计算[20] - 大脑与小脑之间通过KV缓存松耦合连接,既保证理解能力,又控制计算量,实现毫秒级反应速度[21] 技术创新二:两阶段预训练策略 - 解决具身模型长期存在的“顾此失彼”难题:模型在学习大量机器人动作数据后,原有的视觉理解能力会迅速退化[24][25] - 预训练采用两阶段特训:第一阶段通过Choice Policy与跨平台机器人轨迹数据,让VLM在理解图像与指令的同时粗粒度预测动作块,对齐视觉特征空间与动作空间[26][27] - 在预训练中混合视觉语言数据,避免VLM遗忘原有的视觉推理能力[28] - 第二阶段冻结VLM,单独训练DiT进行流匹配精细化生成,保护模型原有的多模态通识能力[30] - 这种分工确保模型在引入动作能力后依然保持强大的视觉语言能力,使机器人既能读懂复杂指令,又能规划连续动作[31] 技术创新三:改良异步执行机制 - 在后训练阶段引入Λ形注意力掩码机制,解决传统异步执行容易产生的“动作惯性”问题[34][35][36] - 该机制让动作块中紧邻前缀的动作回看先前动作确保衔接平滑,而远离前缀的部分则强制关注当前视觉反馈,确保根据环境实时修正[38] - 该机制让模型在保证动作连续性的同时强制重新审视环境,实现“连贯且可修正”,达到既丝滑又精准的状态[39] - 改良异步机制让模型同时实现动作流畅、精度保持和吞吐领先[40] 仿真与基准测试表现 - 在具身智能核心的VLA仿真benchmark中,Xiaomi-Robotics-0在LIBERO、CALVIN、SimplerEnv等六个仿真环境中,全面超过包括π0、π0.5、OpenVLA、RT-1、RT-2等在内的约30个现有头部模型[44] - 在CALVIN基准测试中,在“ABCD->D”设置下,连续完成5个任务的成功率达到91.8%,平均任务长度4.80,领先其他模型;在“ABC->D”设置下,连续完成5个任务的成功率达到88.1%,平均任务长度4.75[46] - 在Libero基准测试中,于Libero-Object任务上达到100%成功率,并以98.7%的平均成绩位列测试前列[47] - 在MMBench、MME、POPE、SeedBench、AI2D、M3MU、ScienceQA、MathVista、ERQA等九个多模态理解测试集中,大多数指标高于对比模型,证明模型没有通过牺牲理解能力来换取控制能力[48][49][50] 真实物理世界任务表现 - 在“叠毛巾”任务中,测试了6张不同毛巾,连续作业30分钟,均保持高成功率与高吞吐[54][55] - 在“拆卸乐高”任务中,在MA与LA-10场景达到100%成功率,吞吐量领先约25%[56][57] - 综合测试表现表明,Xiaomi-Robotics-0打通了仿真-视觉理解-真实机器人操作的闭环,是一个非常成熟的一体化VLA模型[58] 公司战略与行业影响 - 小米在具身智能领域选择走“务实进厂派”路线,强调工业落地、稳定性、吞吐量、可部署性及对复杂环境的适应性[64][65][73] - 公司近期开源了触觉驱动的精细抓取微调模型TacRefineNet,该模型依赖11×9压阻式触觉阵列,触点间距1.1mm,通过多模态融合实现毫米级位姿微调,无需视觉和物体三维模型,可Zero-shot部署于真实产线[66][67][68] - Xiaomi-Robotics-0提供快速响应与连续控制,TacRefineNet提供末端精细调整,两者结合构成“眼-脑-手”协同体系,直接切中工业场景中最难的非结构化环境作业难题[70][71] - 小米将Xiaomi-Robotics-0和TacRefineNet均选择开源,所有架构细节、算法方案全盘托出[74][75] - 从技术角度看,开源展示了“低延迟+高智能”在消费级硬件上运行的可行路径,打破了“具身大模型必然面临思维卡顿”的思维定式[76] - 从行业视角看,开源降低了广大中小开发者的入门门槛,使其无需从零开始烧钱训练昂贵基座模型,可以基于开源模型开发细分垂直应用[77][78] - 在重资产、长周期的具身机器人赛道,开源高质量基础模型提升了行业透明度,推动了技术讨论从营销转向工程细节,承担了行业基础设施建设者的角色[79][80]
中泰国际:美股方面,美国1月非农就业人数增加13.5%
中泰国际· 2026-02-12 09:40
港股市场表现 - 恒生指数上涨83点(0.3%),收于27,266点[1] - 恒生科技指数上涨48点(0.9%),收于5,499点[1] - 全天大市成交额为2,172亿元[1] - 南向资金净流入48.2亿元[1] - MSCI中国指数新纳入商汤、小马智行、禾赛和长飞光纤[1] 美股与宏观数据 - 美国1月非农就业人数增加13万人,远超预期的6.5万人[2] - 美国1月失业率降至4.3%[2] - 道琼斯指数下跌66点(0.1%),纳斯达克指数下跌36点(0.1%),标普500指数微跌0.3点[2] - 中国1月PPI同比下降1.4%,环比上涨0.4%[3] - 中国1月CPI同比上涨0.2%,核心CPI同比上涨0.8%[3] 行业与公司动态 - 中芯国际四季度净利润同比增长61%,但一季度毛利率指引低于预期,股价下跌2.1%[1] - 药明生物预计2025年收益增长约16.7%至217.9亿元,股东应占利润增长46.3%至49.08亿元[4] - 小米集团因入股人形机器人供应商及研究成果公布,股价上涨4.3%[4] - 欧盟批准中国电动车价格下限及配额换取豁免关税协议,比亚迪、吉利股价上涨2.7%-3.9%[4] - 贵金属个股上涨,紫金矿业涨2.8%,山东黄金涨4.4%,紫金黄金国际涨9.1%[1]
北水动向|北水成交净卖出18.87亿 北水加仓科网及芯片股 抛售盈富基金(02800)超45亿港元
智通财经网· 2026-02-09 17:59
港股通资金流向总结 - 2月9日,港股市场北水成交净卖出18.87亿港元,其中港股通(沪)净卖出16.44亿港元,港股通(深)净卖出2.42亿港元 [1] 个股资金净买入情况 - **腾讯控股(00700)**:获北水净买入9.04亿港元,其中港股通(深)净买入17.99亿港元 [2][4] - **南方恒生科技(03033)**:获北水净买入6.40亿港元 [4] - **小米集团-W(01810)**:获北水净买入2.09亿港元 [5] - **泡泡玛特(09992)**:获北水净买入1.53亿港元 [2] - **中芯国际(00981)**:获北水净买入1.27亿港元,其中港股通(沪)净买入2074.77万港元 [2][4] - **长飞光纤光缆(06869)**:获北水净买入1.68亿港元 [4] - **华虹半导体(01347)**:获北水净买入1.49亿港元 [7] - **钧达股份(02865)**:获北水净买入4510万港元 [7] - **阿里巴巴-W(09988)**:获北水净买入5041万港元 [7] 个股及ETF资金净卖出情况 - **盈富基金(02800)**:遭北水净卖出25.15亿港元 [2] - **恒生中国企业(02828)**:遭北水净卖出10.00亿港元 [4] - **中国移动(00941)**:遭北水净卖出1.99亿港元 [7] - **快手-W(01024)**:遭北水净卖出3.98亿港元 [2] - **长飞光纤光缆(06869)**:在部分交易中遭净卖出778.43万港元 [2] - **阿里巴巴-W(09988)**:在部分交易中遭净卖出1.00亿港元 [2] 行业与公司动态 - **互联网科技**:摩根大通认为腾讯最持久的资产是其分发和参与度,能使新能力以较低成本实现规模化 [4] 小米机器人团队公布具身智能领域研究成果“TacRefineNet” [5] - **半导体**:芯片股重获加仓,中芯国际与华虹半导体将分别于2月10日及12日发布财报 [7] 财通证券指出AI算力需求带动全球晶圆代工行业景气,台积电2025年第四季度营收达1.05万亿新台币,同比增长20.45%,全年营收3.81万亿新台币,增长31.60% [7] - **通信设备**:华源证券指出光纤价格已温和上涨约半年,G.652.D裸光纤价格从不到20元/芯公里一路上涨,2026年后加速上涨,核心原因是供需反转,AI数据中心建设加速驱动需求 [6] - **航天科技**:钧达股份成为上海复遥星河控股股东,持股60%,其下属巡天千河为国内领先的卫星整星企业 [7] - **港股市场展望**:东吴证券表示港股短期考验尚未完全结束,需观察海外风险及国内AI催化,若春节前后国内AI超预期,港股有望和A股一起躁动 [5] 浦银国际认为短期市场预计将维持震荡态势,风格和投资主线或将出现轮动 [5]
小米发布具身智能触觉抓取模型TacRefineNet,机器人ETF(562500)高位震荡,固高科技领涨
每日经济新闻· 2026-02-09 14:47
机器人ETF市场表现 - 机器人ETF(562500)午后维持高位震荡,最新价报1.068元,较开盘价上涨1.521% [1] - 该ETF成交额达7.44亿元,换手率2.99%,资金交投节奏平稳,成交活跃度维持适中水平 [1] - 该ETF是全市场唯一规模超两百亿的机器人主题ETF [2] ETF持仓与成分股表现 - 该ETF跟踪的66只成分股中有55只上涨,板块内做多情绪浓厚,无明显下跌标的形成拖累 [1] - 固高科技大涨超8%,瑞松科技、云天励飞、大族激光涨幅居前,形成强劲的核心跟涨梯队 [1] - 随着成分股调整落地,其跟踪的中证机器人指数人形机器人含量提升至近70% [2] - 此次调仓精准剔除近期走势疲软的个股,纳入表现尚可的优质标的,成功实现“去弱留强” [2] 行业技术进展 - 小米机器人团队发布触觉驱动的机器人精细抓取微调模型TacRefineNet,该模型为通用框架,仅依靠触觉即可实现毫米级位姿微调 [1] - 该模型无需视觉辅助和物体三维模型,在仿真及真实环境中均能将多样化不精准抓取的平均位置误差迭代缩小至毫米级别 [1] - 在工业机器人领域,因场景高度标准化,故使用位控技术实现高精度的位置跟踪 [2] - 2026年人形机器人要实现从“能动”到“会动(动得丝滑)”的进步,而这离不开精准的力控 [2] 产品与行业覆盖 - 机器人ETF(562500)成分股覆盖人形机器人、工业机器人、服务机器人等多个细分领域 [2] - 该产品帮助投资者一键布局机器人上中下游产业链 [2]
追觅CEO称每天研发投入4000万;泡泡玛特王宁:LABUBU去年全球销量超1亿只;OpenAI首款硬件命名曝光丨邦早报
创业邦· 2026-02-08 09:08
人工智能与硬件 - OpenAI首款硬件产品命名曝光,为名为"Dime"的AI音频耳机,形态类似苹果AirPods,战略从激进的"类手机"架构革命性设备转向"先易后难"的功能相对单一的传统形态,核心原因是存储芯片短缺导致组件价格飙升,使得高算力耳机成本难以取得合理商业回报[2] - 小米机器人团队公布具身智能研究成果TacRefineNet,这是一个仅依靠触觉、无需视觉和物体三维模型就能实现毫米级位姿微调的通用框架,在仿真和真实环境中可完成汽车工厂物体的精细抓取调整,平均位置误差可迭代缩小至毫米级别[13] - AI芯片初创公司SambaNova Systems正在进行新一轮融资,金额超过3.5亿美元,由Vista Equity Partners领投,现有投资者英特尔计划投资约1亿美元,潜在最高投资额可达1.5亿美元[10] 科技与汽车行业动态 - 特斯拉计划在2026年于中国市场加大AI软硬件和能源领域投入,已在华布局本地训练中心用于智能辅助驾驶本土化调优,全球市场2026年资本支出预计超过200亿美元,重点投向AI算力、机器人工厂、Cybercab量产、储能与制造、充电网络和电池工厂等领域[7][8] - 苹果拟允许第三方语音控制AI应用接入CarPlay系统,使用户首次能通过车载界面与AI聊天机器人交流,此前仅允许自家Siri作为语音控制选项[7] - 小米YU7 GT车型完成工信部申报,车身尺寸长5015mm、宽2007mm、高1597mm,轴距3000mm,最高时速可达300公里[11] - SpaceX据悉推迟原定于2026年底进行的火星任务,将重心转向NASA登月计划,计划在2027年3月进行无人登月,火星任务将在完成登月里程碑后进行[8] 消费电子与互联网 - 日本国内电视市场格局生变,随着索尼将电视业务移交由TCL集团持股51%的合资公司,中资背景企业份额将升至六成,例如"REGZA"品牌95%股权由海信集团持有[13] - 天涯社区重启迎来新进展,相关方正推进其于2026年6月1日恢复访问[7] - 深交所旗下巨潮资讯网正式入驻腾讯AI智能工作台ima,建设"深证信(巨潮)公告库",所有公告已按公司和行业分类,并标注关键信息,结论有来源标注并支持原文回溯[4] 消费与零售 - 泡泡玛特创始人披露2025年关键数据:全球员工超1万人、注册会员超1亿人、LABUBU全年销量超1亿只、全品类全IP产品销量超4亿只,业务覆盖超100个国家和地区、全球门店超700家、拥有6大供应链基地[3] - 追觅科技CEO透露公司研发投入巨大,约2万名研发管理人员,每天研发投入约4000万元,年终奖方案中,主营业务将净利润的18%作为奖金发放,盈利最高部门能拿到11个月奖金,最高个体预计有20个月奖金[3] - 亚马逊宣布自2026年2月12日起变更商品评论共享规则,将仅在具有细微差异且不影响功能的变体间共享评论,对于有较大差异的变体不再显示共享评论,旨在帮助顾客更准确了解商品反馈,增加信任并降低退货率[8] - 春节期间多家快递企业(中国邮政、顺丰速运、京东物流、德邦快递等)宣布将继续提供收派服务,但快件时效可能受影响[4] 宏观经济与工业 - 德国联邦统计局数据显示,2025年德国工业产出较前一年下降1.1%,为连续第四年下滑,其中建筑业产出下降1.7%,汽车行业产出下降1.7%,机械设备制造业产出下降2.6%[13] - 乘联分会数据显示,2025年全国二手车累计交易量2011万台,同比增长2.5%,交易额12898亿元,增长0.4%,2025年12月二手车转籍比例达34%的当期历史高位,2025年1-12月新能源二手车累计交易量161万台,同比增长43%,12月新能源二手车交易量16.9万台,同比增长36.5%,渗透率12%[14] 企业与社会 - 京东公开其001号快递员金宜财退休生活状况,其每月养老金4000多元,靠积蓄和理财存款超一百万元,退休前已帮两个儿子在南京、无锡成家置业,2009年入职,2024年1月年满60岁退休[4][5]
小米推出触觉驱动的机器人精细抓取微调模型TacRefineNet
新浪财经· 2026-02-07 19:28
公司技术进展 - 小米机器人团队公布了在具身智能领域的阶段性研究成果 TacRefineNet [1] - TacRefineNet 是一个仅依靠触觉、无需视觉和物体三维模型就能实现毫米级位姿微调的通用框架 [1] - 该技术可完成多个汽车工厂物体的精细抓取调整 经过调整后平均位置误差可迅速迭代缩小至毫米级别 [1] - 相关技术细节和实验视频已公开 更多后续工作将很快推出 [1] 行业技术方向 - 该研究属于具身智能领域 展示了在机器人精细操作方面的技术突破 [1] - 技术框架在仿真和真实环境中均得到验证 显示出通用性和实用性 [1] - 技术针对多样化的不精准抓取问题 提升了机器人抓取的精度和适应性 [1]