Workflow
具身智能之心
icon
搜索文档
大赛报名中|2025无锡国际人工智能创新应用大赛,66万奖金聚焦具身智能赛道
具身智能之心· 2025-09-10 08:03
赛事概况 - 2025无锡国际人工智能创新应用大赛于8月25日开赛 面向全球开放算法赛道和具身智能创新应用赛道双赛道 召唤算法开发者 创新团队 科研院所和企业共同参与具身AI大赛 实现人工智能技术创新与应用 [1] - 大赛聚焦具身智能领域 算法赛道参赛者使用极市平台和DISCOVERSE具身仿真平台进行算法开发角逐 [3] - 具身智能创新应用赛道面向具身智能创新应用企业 具身生态链企业 智能终端企业 创业团队 科研院所团队和个人 基于具身智能进行创新和应用开发 提出并实现具有创新性和实用价值的解决方案 [4] - 赛事官网为https://cvmart.net/cv_landing/list/wuxi2025 提供详情和报名入口 [5] 算法赛道详情 - 算法赛道包含机器人原料识别和积木拼装挑战两个赛题 均设置初赛 复赛和决赛三个环节 [11][19] - 机器人原料识别赛题致力于精准识别生产线或特定场景中的原料 通过视觉系统获取物料图像 运用图像处理与分析技术辨别原料 结合机器学习模型对原料类型 形状 位置等特征进行分类与定位 机器人依据算法结果实现自动化整理 为制造业等领域智能化管理提供支持 [8] - 积木拼装挑战赛题致力于提升机器人在复杂空间认知与精密操作方面的综合能力 机器人通过视觉感知系统获取积木散件图像 运用深度学习与计算机视觉技术精准识别不同形状和尺寸的积木块 分析几何特征 空间位置和拼装属性 根据给定目标图样自主完成积木拼装 [12] - 初赛在极市平台完成计算机视觉算法开发 复赛在DISCOVERSE具身仿真平台完成算法开发(提供大赛baseline) 决赛为仿真作品得分评比加线下算法方案答辩 [11] - 决赛设置机械臂真机比赛环节 让虚拟算法在现实世界中接受检验 [7] 具身智能应用方案赛道详情 - 具身智能创新应用赛题聚焦具身智能的实际应用 鼓励参赛者提出并实现具有创新性和实用价值的应用解决方案 [14] - 赛道方向涵盖具身智能整机系统 关键零部件与执行机构 感知模块 决策控制模块 具身大模型 垂直领域专用模型等软件架构 具身智能在感知识别 移动导航 精准操作 智能决策 人机交互 自主学习等方面的技术能力 以及集成具身智能核心技术的智能终端产品及机器人系统 [14] - 应用场景包括工业制造 医疗健康 居家服务 社交娱乐 科学研究 教育培训 交通运输 仓储物流 公共安全等领域 [14] - 赛题设置初赛和决赛两个环节 初赛需提交参赛表和具身智能应用方案PPT 决赛为线下路演和答辩 [17] - 决赛前安排线下真机培训环节 决赛为线下真机比赛加算法方案答辩 [15] 奖项设置 - 算法赛道(包含机器人原料识别和积木拼装挑战共2个赛题)冠军共2支队伍 每支队伍35,000元奖金加荣誉证书 亚军共2支队伍 每支队伍25,000元奖金加荣誉证书 季军共2支队伍 每支队伍16,000元奖金加荣誉证书 优胜奖共6支队伍 每支队伍8,000元奖金加荣誉证书 [19] - 具身智能创新应用赛道冠军共1支队伍 每支队伍100,000元奖金加荣誉证书 亚军共2支队伍 每支队伍60,000元奖金加荣誉证书 季军共3支队伍 每支队伍40,000元奖金加荣誉证书 优胜奖共10支队伍 每支队伍12,000元奖金加荣誉证书 [20] 附加支持 - 大赛设置创赛基金 对参与大赛的优秀企业和团队给予资金支持 鼓励将方案转化为实际应用 并提供投融资对接 推动方案的开发和产业化落地 [20] - 大赛配备AI人才专项奖 申请入口为https://doc.weixin.qq.com/smartsheet/form/1_wpf2ziCAAAAkeaqlXg1UMqzDQ0NSm14A_e59633 [25]
3个月,为大家梳理清了整个具身技术路线......
具身智能之心· 2025-09-10 08:03
具身智能概述 - 具身智能是通往通用人工智能的关键方向,强调智能体与物理环境的交互与适应,使其具备感知、理解、执行和反馈学习的能力 [1] - 具身智能的核心模块类比于人脑,分为负责思考感知与任务规划的“大脑”,以及负责高精度运动执行的“小脑” [1] 产业发展与竞争格局 - 近2年,星海图、银河通用、逐际动力等明星团队从实验室走向商业和工业界,推动技术进步 [3] - 国内大厂积极布局:华为于2024年底启动“全球具身智能产业创新中心”并与乐聚机器人、大族机器人等合作;京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司;腾讯、蚂蚁集团、小米等也通过战略投资与合作加快构建产业生态 [5] - 国外企业侧重基础模型与原型研发:Tesla/Figure AI推进工业与物流机器人应用;美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人 [5] - 国内外企业在该领域正加速进入关键竞赛阶段,国内以产业链投资与综合平台驱动落地,国外侧重基础模型、模拟环境与类人机器人原型研发 [5] 技术演进路径 - **第一阶段**:聚焦抓取位姿检测,通过点云或图像预测末端执行器姿态,实现静态物体抓取,但策略多为单步决策,缺乏任务上下文和动作序列建模 [6] - **第二阶段**:进入行为克隆阶段,机器人借助专家演示数据学习端到端映射,模仿人类完成复杂任务,但存在泛化能力弱、误差累积等问题 [6] - **第三阶段**:2023年兴起的Diffusion Policy方法通过扩散模型生成整个动作轨迹,提升了策略的稳定性与泛化能力;2024年进入Vision-Language-Action模型阶段,代表性工作如OpenVLA、RT-2、PIO,融合视觉、语言与动作生成,支持零样本或小样本快速泛化,实现从“感知+控制”向“感知+推理+行动”的范式跃迁 [6][7] - **第四阶段**:2025年以来,业界探索VLA模型与强化学习、世界模型、触觉感知等模块的融合,以弥补现有局限 [9] - VLA与强化学习结合提升机器人在长时任务中的试错与自我改进能力;VLA与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力;VLA与触觉信息融合拓展了“看+触”的多模态感知边界 [11][12] - 技术演进从“低层感知->中层策略->高层理解”链条上补齐能力短板,迈向通用任务和开放环境的智能体时代 [14] 市场应用与人才需求 - 技术发展推动了人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域的落地,相关产品和融资络绎不绝 [14] - 行业岗位呈现爆发式增长,导致许多人员转入具身智能领域进行研究 [14] - 从研究走向落地,对工程与系统能力需求激增,产业界更重视从“论文”到“部署”的工程能力 [17]
光刻机巨头ASML,108亿控股了一家大模型公司
具身智能之心· 2025-09-10 08:03
编辑 丨量 子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 光刻机巨头 ASML ,也来投大模型了。 就在刚刚,荷兰半导体设备巨头ASML正式成为法国AI明星公司 Mistral AI 的第一大股东,一口气砸下13亿欧元(约108亿元人民币)真金 白银。 这次ASML领投Mistral AI 的C轮融资总额17亿欧元(约142亿元人民币),直接把这家成立时长两年半的公司估值推高到100亿欧元(约835 亿元人民币),一举成为欧洲最值钱的AI公司。 更有意思的是,ASML不仅要掏钱,还要求 进董事会占一个席位 。 全球唯一能造EUV光刻机的半导体巨头,正式和"欧洲的OpenAI"深度绑定了。 Mistral的开挂之路 根据知情人士透露,这笔交易的谈判过程相当低调,双方都签了保密协议。 美国银行作为ASML的财务顾问,在整个过程中发挥了重要作用。 就在几周前,彭博社报道就透露Mistral AI的估值可能达到140亿美元(约119亿欧元或1000亿元 ...
CoRL 2025 | SafeBimanual: 基于扩散的安全双手操作轨迹优化
具身智能之心· 2025-09-10 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Haoyuan Deng等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 1.前言 双手操作(Bimanual Manipulation)是机器人在家庭服务、制造业以及医疗等场景中不可或缺的能力。相比单臂操作,双臂机器人能够通过协调配合完成更复杂 的任务,例如烹饪、组装和物品搬运。 2.简介 目前的扩散式策略生成方法虽然能够在高维动作空间中实现稳定的动作建模与生成,但其 核心问题是缺乏安全性意识 。现有方法往往只关注如何高效完成任 务,却没有在轨迹生成过程中引入明确的物理安全约束,从而导致一系列危险行为: Figure1 双手操纵不安全模式分类 忽视物理约束 :现有扩散策略直接从去噪分布中采样动作,缺乏对双臂空间位置与动态关系的约束,容易导致机械臂轨迹交叉、两臂动作错位、末端执行器 不一致等情况。 存在危险交互 :常见的风险模式包括双臂夹具互相碰撞、在操作刚性物体时发生撕裂、夹具对物体 ...
π0.5开源了!!!
具身智能之心· 2025-09-09 14:45
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 π0.5开源了!!! π0.5模型是π0的升级版本,通过知识隔离( knowledge insulation)训练获得更强的开放世界泛化能 力!今天看到了项目主页上更新了0.5的信息。 项目链接:https://github.com/Physical-Intelligence/openpi | πο-ALOHA- | Inference | πο model fine-tuned on public | gs://openpi- | | --- | --- | --- | --- | | pen-uncap | | ALOHA data: can uncap a pen | assets/checkpoints/pi0_aloha_pen_uncap | | | | που το 19 model fine-tuned for the | | | ...
我们正在找具身领域的合伙人......
具身智能之心· 2025-09-09 12:00
最近收到越来越多合作伙伴和中小公司的诉求,期望具身智能之心团队能够在方案和数采、技术升级、 企业培训等多个方向上赋能。 虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,要推动大的行业进步,需要更多优 秀的伙伴加入我们。 现面向全球的具身领域从业者发出邀请函,具身智能之心期望能够和您在技术服务、培训、课程开发与 科研辅导等多个领域展开合作。 我们将提供高额的酬金与丰富的行业资源。 主要方向 包括但不限于:VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态 大模型、仿真、运动控制、端到端、3D感知等多个方向。 岗位说明 主要面向具身方案研发、硬件研发、培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多 学生、求职类人群)。 联系我们 感兴趣的可以添加微信oooops-life做进一步咨询。 ...
VLA与强化学习技术交流群来啦!
具身智能之心· 2025-09-09 12:00
技术交流平台 - 行业旨在为四足机器人、人形机器人、机械臂相关的运动控制技术搭建一个技术交流与分享平台 [1] - 交流群专注于具身智能领域的视觉语言模型和强化学习技术 [1]
花了很长时间,汇总了大模型相关的技术栈......
具身智能之心· 2025-09-09 12:00
大模型技术社区概述 - 社区名称为“大模型之心Tech”,旨在打造一个集视频、图文、学习路线、问答、求职交流于一体的综合类大模型技术社区,期望未来2年内达到近万人的规模[3] - 社区创建的出发点是提供大模型相关的技术交流平台,交流学术、应用和工程问题[6] - 社区已邀请40+位来自国内外知名高校实验室和头部公司的嘉宾,高校包括上交、清华、北京大学、上海人工智能实验室、港科大、港大等,公司包括阿里千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等[6][67] 大模型行业趋势与人才需求 - 大模型技术是RAG和AI Agent等前沿领域发展的基础,企业对掌握RAG、Agent等技术的人才需求高涨,这些技能已成为AI从业者的核心竞争力[1] - 算法开发、工具链开发、后端、产品经理、架构师等相关岗位需求非常旺盛,算法核心岗位的年薪表现突出[1] - 开源大模型生态为学习者提供绝佳机会,国外有Meta的LLaMA 3,国内DeepSeek采用完全开源模式,其衍生项目超过800个,通义千问衍生模型数破10万,居世界第一[3] 社区技术内容体系 - 社区汇总了大模型全栈学习路线图,主要涵盖RAG、AI Agent和多模态大模型三大方向[6] - RAG学习路线包括Graph RAG、Knowledge RAG、多模态RAG、Reasoning RAG等子领域[6][10] - AI Agent学习路线包括Agent评测、强化学习、多模态Agent、Agent通讯、基座Agent、自进化Agent、Multi-Agent等细分方向[6][26] - 多模态大模型训练内容涵盖MLLM、VLM、大模型微调、RLHF、MoE、VLM提示适配器学习、LLM在3D世界中的应用等[43] 社区资源与福利 - 社区提供Awesome系列工具汇总、开源Benchmark汇总、评测框架汇总等技术资源[6] - 会员可第一时间掌握大模型相关的学术进展和工业落地应用[7] - 提供与行业大佬交流工作与求职问题的机会,包括大模型相关工作岗位推荐和行业机会挖掘[11] - 未来计划不定期邀请国内外顶尖学术界和工业界大佬进行直播分享[66] 技术细分领域覆盖 - RAG领域详细覆盖BenchMark汇总、综述汇总、Graph RAG、Knowledge-Oriented RAG、多模态RAG、Reasoning RAG、RAG在AIGC中的应用、个性化RAG等[13][15][17][19][21][23][24] - AI Agent领域包含前沿综述汇总、Agent评测、Agent强化学习、多模态Agent、Agent通讯、基座Agent汇总、自进化Agent、Multi-Agent等[28][30][32][34][35][37][39][41] - 多模态大模型训练涵盖多模态大模型MLLM、视觉语言模型VLM、大模型微调、强化学习与RLHF、MoE混合专家模型等技术方向[46][48][50][52][54] - 大模型量化、部署及推理部分包括大模型量化、大模型推理、大模型部署等实践性内容[61][62][64]
国产具身AI平台来了!这家公司让具身AI真正从“虚拟走进现实”
具身智能之心· 2025-09-09 08:03
在具身AI技术加速发展的当下,智能机器人正逐步从实验室走向实际应用场景。从家庭扫地机器人到工业装配臂,从仓储物流搬运到医疗护理,机器人 应用边界持续拓展。尤其随着大模型技术突破,机器人的环境理解与任务执行能力显著提升,在复杂家庭服务、高精度工业生产中展现出巨大潜力。 然而,具身AI要实现规模化商用部署,仍需突破三大核心挑战: 1. 缺乏高性能低延时底层操作系统 :现有解决方案在实时性、稳定性上存在短板,限制复杂任务执行与多机器人协同部署。 2. 高质量训练数据稀缺 :传统人工演示、遥操作数据采集效率低、成本高,难以覆盖现实世界复杂多变场景; 3. 验证测试成本高昂 :真实环境中测试机器人算法耗时久,且存在安全风险,单次失败可能导致设备损坏、人员受伤; 长期以来,ROS(机器人操作系统)是机器人研发的主流工具,为开发者提供消息通信、传感器与算法集成、机器人建模仿真等功能,助力快速搭建系 统、验证功能。但在工程化与大规模应用中,ROS存在 实时性不足、通信开销大、安全性欠缺 等问题,无法满足高性能、低延时的具身AI场景需求。 在此背景下,Dora(Dataflow Oriented Robotics Archit ...
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
具身智能之心· 2025-09-09 08:03
文章核心观点 - 中国电信人工智能研究院提出了一种名为"对齐-引导-泛化"的VLA跨本体泛化框架,旨在解决视觉-语言-动作模型在后训练阶段面临的跨本体适配挑战 [1][2] - 该框架的核心思想是在潜空间中对齐跨本体动作分布,并利用统一潜空间梯度引导VLA策略更新,实现了从调架构向调分布的范式转移 [2][9] - ATE框架能够适配Diffusion和Flow-Matching等主流VLA模型,极大减少了VLA跨本体适配的数据需求,在仿真和真实机器人实验中均表现出显著性能提升 [2][16] 研究背景与动机 - 现有VLA基座模型在进行目标场景应用时,需要采集数十至数百小时目标本体数据完成后训练,当预训练和后训练阶段动作分布出现严重失配时,引发跨本体适配挑战 [1] - 决定VLA能否进行跨本体迁移的关键是预训练阶段与后训练阶段动作分布的一致性,而非参数规模或主干架构复杂度 [5] - 当目标本体的机械臂构型、执行器形态、关节自由度等发生变化时,目标动作分布会偏离预训练阶段学得的动作分布域 [5] ATE框架方法论 - ATE框架分为两个阶段:第一阶段构建统一动作潜空间并对齐动作分布,第二阶段设计引导函数并利用分类器引导VLA模型更新 [9] - 在潜空间对齐阶段,通过训练两个小型变分自编码器模型,将适配数据的潜变量分布逼近预训练潜分布的某一模态 [17] - 在引导阶段,通过能量函数和分类器衡量生成动作与目标动作分布的差异,将引导梯度整合进训练目标函数中,对生成轨迹的分布施加"拉力" [14] 技术优势 - ATE框架带来三方面优势:样本效率提升、训练效率提升、工程可复用性增强 [10] - 潜空间对齐将策略搜索范围约束在包含目标分布域的流形上,显著降低了拟合到可行动作分布所需的数据量 [10] - 分布引导避免模型全参数重训练,在既定训练预算内获得更快的有效收敛,且与顶层模型解耦,具备即插即用特性 [10] 实验结果 - 在ManiSkill与RoboTwin 1.0等多任务仿真评测中,ATE相较于直接后训练,平均多任务成功率最高提升9.8% [16] - 在真实机器人跨本体现实场景中,ATE带来最高32%的成功率增益,且表现出更稳健的收敛行为与对光照、干扰的鲁棒性 [16] - 具体任务表现:RDT在Empty Cup Place任务成功率由22%提升到61%,Pi-0在Dual Bottles Pick任务上成功率由48%提升到85% [18] - 从样本效率角度,ATE在70k步即可超过传统RDT的90k步效果,说明对齐-引导机制显著提升了任务成功率 [18] 实际应用验证 - 在自行搭建的双臂睿尔曼实验环境中,ATE算法能够将基座RDT和Pi-0等VLA模型快速适配到目标本体上 [20] - 在需要双臂协同、时序规划与多阶段配合的分钟级长程任务上,ATE框架能使模型更快地收敛到目标域动作分布 [20] - ATE框架在未见的光照、杂物干扰、空间偏移与外部干预下仍能维持任务相关注意与恢复能力 [22]