视觉语言动作模型(VLAs)
搜索文档
“玲龙一号”全球首堆冷试成功;复旦团队造出可告别铅污染的太阳能电池,光电转换效率达17.7%丨智能制造日报
创业邦· 2025-10-17 11:24
智能光子与成像技术 - 全球首款亚埃米级快拍光谱成像芯片“玉衡”由清华大学团队研制成功,标志着智能光子技术在高精度成像测量领域达到新高度 [2] - 相关研究成果已在线发表于国际知名学术期刊《自然》 [2] 机器人技术与评估标准 - 全球首个大规模多任务真实物理环境机器人操作基准测试RoboChallenge发布,为视觉语言动作模型在机器人的实际应用提供可靠评估标准 [2] - RoboChallenge由Dexmal原力灵机联合Hugging Face共同发起,能够克服真实环境下的性能验证等挑战 [2] 新材料与人造肌肉 - 韩国研究团队研发出新型人造肌肉,可在“柔软灵活”和“坚硬有力”状态间自由切换,其能量输出远超人类肌肉 [4][5] - 该创新型肌肉可举起相当于自身重量四千倍的物体,有望推动软体机器人、可穿戴设备和医疗辅助技术发展 [4][5] 新能源技术与电池 - 复旦大学团队研发出锡基钙钛矿太阳能电池,实现了全生命周期无害,并突破了光电转换效率的世界纪录,效率达17.7% [5] - 相关成果以加速预览形式在线发表于《自然》期刊 [5] 核能技术与小型堆 - “玲龙一号”全球首堆冷态性能试验圆满完成,为后续反应堆装料及商运奠定基础 [5] - “玲龙一号”是全球首个通过国际原子能机构安全审查的陆上商用模块化小堆,建成投运后预计年发电量达10亿度,满足52.6万户家庭用电需求 [5] - 该小型堆将减少二氧化碳排放量约88万吨,相当于一年植树750万棵 [5]
RoboChallenge基准测试开启真机实测时代!“全市场唯一两百亿规模”机器人ETF(562500) 早盘弱势震荡,行业龙头回调
每日经济新闻· 2025-10-16 14:32
ETF市场表现 - 机器人ETF(562500)截至当日10点04分下跌0.97%,成交额为3.21亿元,成交量约3.14亿份 [1] - 近五日成交持续放大,市场换手充分但资金情绪偏谨慎,ETF延续震荡整理格局,仍处于中短期支撑区间附近 [1] - 成分股表现跌多涨少,73只持仓股中13只上涨、59只下跌,东杰智能、景业智能领涨,均普智能、三丰智能领跌,行业龙头承压 [1] 行业动态与催化剂 - 全球首个大规模、多任务真实物理环境机器人基准测试RoboChallenge发布,由Dexmal原力灵机联合Hugging Face共同发起,为视觉语言动作模型在机器人的实际应用提供可靠评估标准 [1] - 特斯拉人形机器人产业链存在投资机遇,主要催化剂包括四季度特斯拉人形机器人将推出第三代版本,以及2026年量产预期 [2] - 产业链中具有产品及客户突破预期的标的有望受到市场更多关注 [2] 产品概况 - 机器人ETF(562500)是全市场唯一规模超两百亿的机器人主题ETF,覆盖人形机器人、工业机器人、服务机器人等多个细分领域 [2]
具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准
具身智能之心· 2025-10-15 19:03
行业痛点与市场空白 - 具身智能领域缺乏真实、开放的评测基准,真机测试的缺失与现有评测体系的局限已成为限制该领域发展的关键卡点[3] - 当前主流的具身仿真评测benchmark主要依赖仿真环境,面临sim2real问题,模拟器中表现优异的算法在真机上常出现"落地即失效"的问题[4] - 现有在线评测系统存在明显短板,仅部署1-2台机器人、支持少数任务,无法满足"大规模多模型+多任务"的评测需求,且同一模型的成功率在0%到100%间波动,严重影响结果可重复性[4] RoboChallenge平台核心特点 - 平台由Dexmal原力灵机和Hugging Face共同发起,是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试[5] - 首次实现"10台真机集群+30个多样化任务"的大规模评测能力,部署4种主流机器人,包括UR5、Franka Panda、Cobot Magic Aloha和ARX-5[10] - 创新采用"远程机器人范式",用户无需拥有任何机器人硬件,仅需通过在线API即可完成模型与真机的交互,实现"零硬件门槛"[15][19] - 平台坚持全面开放原则,向全球研究者免费提供评测服务,并公开所有任务演示数据及测试中间结果[34] 技术方案与评估体系 - 为解决真机测试中"结果波动大、公平性不足"的核心痛点,创新性地提出"视觉输入匹配"方法,通过将演示数据中的参考图像叠加于测试画面,确保每次测试初始状态一致[23] - 设计了多层级的严谨评估机制,控制测试者差异,并从四个关键维度构建评估体系:VLA解决方案难点、机器人类型、任务场景环境和目标物体属性[23] - 针对"同一模型多次测试波动"问题,设计"基准协议"与"比较协议",确保评测结果的可重复性与可比性[25] - 评估采用端到端任务成功率与过程评分相结合的机制,测试集所有任务均提供约1000条演示数据[16] 任务设计与模型表现 - 平台提供首套桌面操作基准测试集Table30,包含30个精心设计的日常情境任务,覆盖家庭、餐厅、工作等场景[12][26] - 30个任务围绕VLA模型的7大核心能力展开,包括精确3D定位、遮挡与多视角融合、时间依赖性、双臂协同、柔性物体处理、物体识别与分类以及Long horizon和多阶段操作[27][28] - 官方测试了四种主流开源VLA算法,性能更强的模型表现显著更优,SOTA模型π₀.₅的成功率尚不足50%,其得分为61.84,成功率为42.67%[29][30] - 即使仅使用少量样本(约50个任务片段)且混合多任务数据进行训练,π₀.₅仍展现出不错性能,预示着真正的"通用模型"有望在未来出现[31] 平台价值与行业影响 - 平台填补了评测空白,为VLA模型提供真实性能的"试金石",避免"纸上谈兵"式研究[38] - 显著降低参与门槛,吸引更多研究者参与,尤其降低中小企业、高校团队的评测成本[38] - 严谨的评估体系与多样化任务能暴露模型短板,明确模型改进方向,推动VLA模型在核心难点上的突破[38] - 通过结果透明、视频公开、鼓励代码开源,构建开放生态,促进跨团队协作,加速具身智能技术的整体迭代[38]
普林斯顿大学最新!VLM2VLA:将 VLM 微调为 VLA,并避免灾难性遗忘
具身智能之心· 2025-10-07 18:00
文章核心观点 - 提出一种名为VLM2VLA的创新方法,通过将机器人动作数据转化为自然语言描述,解决了视觉语言模型在微调为视觉语言动作模型时出现的灾难性遗忘问题 [2][3] - 该方法的核心是将低维动作向量转化为与VLM预训练数据分布一致的自然语言,从而仅需使用低秩适应技术进行高效微调,最大程度保留VLM原有的多模态理解和推理能力 [3][4] - 通过超过800次真实机器人实验验证,该方法在保留VLM核心能力的同时,实现了在新任务中的零样本泛化,尤其在多语言指令遵循和开放世界语义推理方面表现显著优于基线模型 [4][17][22] 技术方法 - 采用三级推理过程将动作预测层级化,全部使用自然语言描述:高层子任务预测、中层运动规划和低层动作生成,完全复用VLM的现有词汇表 [6] - 通过Gemini 2.5自动将原始机器人轨迹数据集重构为语言标注数据集,使数据格式与VLM预训练数据保持一致,解决了分布不匹配问题 [9] - 仅使用LoRA对Gemma-3-12B-IT模型的线性层进行微调,关键超参数包括LoRA秩为16、LoRA alpha为32、学习率为5e-5,不修改VLM基础架构且无需联合训练 [12][13] 实验验证与性能 - 在12个VQA基准测试中验证了模型对预训练多模态理解能力的保留程度,证明其有效避免了灾难性遗忘 [15] - 在分布内任务上性能接近基于更大数据集训练的OpenVLA,在复杂多步骤任务中因层级推理优势表现更佳 [17] - 在分布外任务中优势显著,多语言任务成功率依赖保留的语言能力,语义任务依赖预训练的常识推理,如在识别"Ash Ketchum"任务中成功率达60%,而基线模型完全失败 [17][22] 局限性与未来方向 - 自回归生成动作导致推理延迟较高,中位延迟为6.1秒,需优化解码策略 [19] - 当前仅支持平移自由度控制,无法处理旋转等灵巧动作,且模型针对特定机械臂训练,需探索更通用的"动作语言"表示 [22] - 依赖Gemini作为外部验证器判断子任务完成度,未来需将验证能力融入VLM本身,并扩展更大规模的机器人语言标注数据集以提升泛化能力 [19][22]