Workflow
视觉语言动作模型(VLA)
icon
搜索文档
灵宝机器人团队在具身智能新赛道上不断突破 让机器人“心灵手巧”(科技视点·一线探创新)
人民日报· 2025-07-28 06:23
科技创新政策导向 - 习近平总书记强调科技创新是推进中国式现代化的必由之路,需开辟新领域新赛道以塑造发展新动能[1] 具身智能技术发展现状 - 具身智能技术进入关键突破期,目标是让机器人实现"心灵手巧"的互动能力[2] - 灵宝机器人专注研发通用人形机器人和具身智能产品,其技术可实现0.3毫米精度的主板装配[3] - 视觉语言动作模型(VLA)是实现感知与操作融合的重要途径,类似动作版大语言模型[3] 机器人模仿学习技术 - 通过"模仿学习"让机器人掌握技能,减少数据依赖:从需30-40条数据改进至5-10条即可学会抓取[4] - 开发自适应力控夹爪,能根据物体软硬自动调整力度(如抓网球与猕猴桃力度不同)[4] - 系统在"跑分"平台名列前茅,部分性能指标达业内领先水平[5] 工业场景应用突破 - 针对制鞋行业开发柔性化解决方案,训练机器人1小时可掌握新鞋款抓取动作[6] - 采用真机在线强化学习技术,普通工人可用3D鼠标"手把手"教学,降低使用门槛[6] - 解决传送带反光、速度变化等实际问题,算法需持续优化以适应工厂环境[7] 人形机器人研发进展 - 灵宝CASBOT 01人形机器人搭载五指仿生灵巧手,单手重800克负载5公斤,具备双指旋拧等精细操作能力[8] - 集成触觉/力觉/视觉多源感知系统,解决"灵巧"与"作业"两大难题[8] - 技术路线呈现"百花齐放"态势,产业链不断完善推动算法开发[9] 产学研协同创新 - 公司将最新研究成果快速产品化,同时为学术界提供研究平台,形成螺旋式上升的创新循环[9]
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 19:54
视觉语言模型在自动驾驶领域的应用 - 大模型技术正在智能驾驶领域快速落地,VLM(视觉语言模型)和VLA(视觉语言动作模型)成为关键技术方向 [2] - VLM侧重基础能力如检测、问答、空间理解和思维链推理,VLA更关注动作生成如轨迹预测 [4] - 学习路径建议先掌握VLM再扩展到VLA,VLM结合扩散模型可实现多模态轨迹预测 [4] 技术社区与资源 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息,已吸引华为天才少年等专家加入 [4] - 社区覆盖四大板块:技术分类汇总、顶级学者直播、求职资源、问题解答,形成"课程+硬件+问答"闭环 [5] - 目标3年内建成万人规模的智能驾驶与具身智能社区,已与多家企业建立学术-产品-招聘全链路合作 [4] 前沿技术方向与数据集 视觉大语言模型 - 汇总10个Awesome资源库,涵盖智能交通LLM、AIGC、CLIP提示学习、模型安全等领域 [6] - 基础理论包括预训练、迁移学习、知识蒸馏三大方向 [7][10][11] 数据集规模 - VLM预训练数据集从SBU Caption(2011年1M图文)发展到LAION5B(2022年5B图文) [13] - 自动驾驶专用数据集包括NuScenes(2020年多模态)、Waymo Open Dataset(2020年)等19个主流数据集 [19] 关键技术应用 智能交通系统 - 2022-2023年出现多模态车辆检索系统,支持自然语言查询跟踪车辆 [21] - Tem-adapter等模型将图文预训练迁移到视频问答任务 [21] 自动驾驶感知 - VLPD(2023)通过视觉语言自监督提升行人检测 [22] - OpenScene(2023)实现开放词汇的3D语义分割 [22] 轨迹预测与规划 - GPT-Driver(2023)、DRIVEVLM(2024)等模型将LLM融入运动规划 [23] - 扩散模型应用显著,如DiffusionDrive(端到端驾驶)、MagicDriveDiT(高分辨率视频生成) [37] 世界模型研究进展 - 2024年涌现DriveWorld、Vista等模型,实现4D场景理解与高保真可控生成 [30] - 核心突破包括:InfinityDrive突破时间泛化限制、DriveDreamer4D增强4D重建 [30] - 17篇顶会论文覆盖物理仿真、多模态LLM融合等方向 [28][29][30] 端到端自动驾驶 - 两大资源库汇总200+篇论文,跟踪E2E驾驶最新进展 [39][43] - 关键挑战包括长尾分布处理、多任务学习、安全验证等 [43][53] - SparseAD(稀疏query范式)、GenAD(新范式)等2024年新方法提升性能25% [46]
具身智能:一场需要谦逊与耐心的科学远征
Robot猎场备忘录· 2025-05-20 13:01
具身智能的核心观点 - 具身智能为机器人领域注入新活力,有望突破性能上限,需保持开放态度避免派别之争 [1] - 具身智能是跨学科产物,依赖材料科学、生物力学等多领域协同突破,而非单一技术路径 [2][6] - 当前具身智能处于早期阶段,人形机器人能力仅相当于自动驾驶"L0"水平,硬件和算法均未成熟 [7] 学科与技术发展 - 传统机器人学的"特殊任务研究"对具身智能有间接贡献,如波士顿动力动态平衡算法、蛇形机器人柔性驱动技术 [2] - 技术迭代呈现沉积效应,如GAN框架仍影响当前AI领域,VLA模型可能被更高效方案取代但会留下技术遗产 [5] - 纯软件算法难以构建长期壁垒,需结合工程实践、材料工艺等"脏活累活"形成护城河 [12] 通用性与具体性 - 通用智能需建立在具体问题钻研基础上,如达芬奇手术机器人亚毫米级操作依赖生物组织参数积累 [3] - 产业需求如汽车线束整理、半导体封装高精度要求等"不性感"的工程细节是锤炼智能的关键场景 [3] - 人形机器人形态优势仅限于人类环境适配,物流/农业等领域专用非人形机器人更具成本效率 [11] 技术路径与产业实践 - VLA技术路径存在争议,儿童和乌鸦案例显示操作能力可独立于语言系统,当前大模型性价比低 [8][9] - 短期优先采用learning与model结合方法,长期纯learning或成主流但需脑科学等学科突破支持 [10] - 工业界更认可model-based解决方案因其稳定可控,端到端大模型并非客户关注重点 [10] 行业动态与案例 - 人形机器人马拉松比赛暴露当前技术局限,多数需人工干预且电机发热问题突出 [7] - 行业存在同质化重复项目风险,需警惕过度追求"酷炫"而忽视经济性 [11] - 华为、智元机器人等公司加码人形机器人赛道,全栈自研和跨领域协作成为焦点 [15][16][18]