GelSight

搜索文档
机器人的“第六感”:视触觉传感器如何重新定义人机交互
钛媒体APP· 2025-05-10 19:05
视触觉传感器技术概述 - 视触觉传感器(VBTS)是一种基于视觉的触觉感知装置 能同时感知法向力 剪切力 相对滑动和物体位姿等多维信息 接近人手的触觉信息维度 [4] - 典型代表GelSight由MIT团队于2009年提出 使用弹性凝胶材料和内置摄像头捕捉形变 通过算法映射为触觉信息 [4] - 工作原理类似"接触成像系统" 弹性材料形变经光学系统放大后 通过深度学习算法重建三维压力分布图 识别精细纹理特征 [6] 技术优势与演进 - 优势包括高密度触觉信息 避免复杂布线 弹性材料适应性强 [6] - 技术演进从MIT的材质分类验证 到机械臂集成实现微米级分辨率操控 显著提升USB插拔等精细任务成功率 [7] - 近年迭代包括布里斯托大学TacTip仿生设计 UC Berkeley的OmniTact全方位感知 商业化产品GelSight等 [8] 技术路线与市场应用 - 三色光光度立体法路线分辨率高但体积大 单色光图案追踪路线解决算力 发热和耐用性问题 戴盟机器人采用后者并实现毫米级厚度 [10] - GelSight应用于物品缺陷检测 戴盟DM-Tac W传感器感知密度达4万单元/平方厘米(人手240单元) 应用于工业自动化 消费电子等领域 [11] - 应用场景覆盖工业精密装配 医疗手术组织区分 可穿戴设备触觉反馈等 [11] 行业发展与投资逻辑 - 行业处于早期阶段 市场无绝对龙头 技术优势在于多维度力测量和视觉系统协同 [13][14] - 技术瓶颈包括缺乏标准数据集 材料耐用性 计算资源需求和感知面积限制 [14] - 资本市场关注技术突破 成本下降和应用拓展 国内企业在政策支持下有望全球竞争 [12][15] 未来展望 - 随材料科学和AI算法进步 传感器将更小型化 低成本化 推动人机交互进入触觉感知时代 [16] - 技术变革使机器人实现花瓣拾取 微米级手术等类人操作 从二进制计算转向"血肉相连"的认知方式 [16]
吴世春和小米联手押宝了一家机器人公司
创业家· 2025-04-22 17:54
i黑马 . 让创业者不再孤独@i黑马 以下文章来源于i黑马 ,作者i黑马 最新消息, 吴世春背后的梅花创投和小米战投联手押宝了一家机器人公司, 并引发了创投圈广泛关注。 据了解,这家公司叫 纬钛机器人(ViTai Robotics) ,主要做机器人仿生感知系统研发制造。该公司近日已宣布连续完成近亿元天使及天使 +轮融资。 其中,小米战投领投天使轮,梅花创投则在天使和天使+轮中均参与了联合投资。 公开资料显示,纬钛机器人成立于2024年1月,总部位于上海,研发及运营团队主要来自于美国麻省理工学院、清华大学等院校。 创始人李瑞 ,不仅是一个连续创业者,还与其导师美国两院院士、MIT大脑与认知科学系教授Edward Adelson,共同研发出了全球首创基于视 觉的触觉传感器GelSight。 李瑞认为, 具身智能是一个万亿级赛道,这个市场足够大,且处于非常早期的阶段。 它现在跟2016年-2017年的自动驾驶很像,容得下数百上 千家企业。而现阶段的具身智能公司比拼,其实并不在于技术,而是在具体场景中的应用。 梅花创投合伙人吴世春近期也提到, "对于机器人市场,不管是人形的、工业的,还是特种的机器人,我们都会积极下注 ...
人大北邮等团队解视触觉感知统一难题,模型代码数据集全开源 | ICLR 2025
量子位· 2025-03-14 19:22
文章核心观点 - 从动静结合角度构建统一的多传感器触觉表征空间,提出TacQuad数据集和AnyTouch学习框架,学习适用于各种任务的通用触觉表征,有望建立视触觉感知标准化学习范式 [21] 视触觉传感器潜力与挑战 - 赋予机器人类似人类的触觉感知能力是具身智能重要研究方向,视触觉传感器因高分辨率展现巨大潜力 [1] - 构建基于视触觉传感器的触觉感知系统面临挑战,传感器种类多且缺乏统一标准,异构性制约系统泛化和鲁棒性,当前模型欠缺对动态触觉细节的捕捉能力 [4] TacQuad数据集 - 缺乏显式配对多传感器数据的可靠触觉数据集,导致不同视触觉传感器采集的数据难迁移使用 [6] - 采集配对的多传感器多模态触觉数据集TacQuad,提供含文本描述和视觉图像的配对数据,支持构建统一的多传感器触觉表征空间 [7] - 挑选GelSight Mini、DIGIT、DuraGel、Tac3D四种触觉传感器,用粗粒度和细粒度两种方法采集两组多传感器配对数据,每次触觉接触记录视觉图像并由GPT - 4o生成触觉属性描述,还利用GPT - 4o为多个开源触觉数据集生成或扩展文本描述 [7][8] - 细粒度时空对齐数据含25个物体的17524个接触帧,用于细粒度触觉任务;粗粒度空间对齐数据含99个物体的55082个接触帧,用于跨传感器匹配任务 [10] AnyTouch学习框架 - 受人类触觉综合体验启发,提出动静结合的多传感器统一触觉表征学习框架AnyTouch,从静态和动态感知结合角度学习统一的多传感器触觉表征 [8] - 采用多层级架构,第一阶段关注像素级触觉细节,第二阶段学习传感器无关的语义级特征,使用通用传感器Token整合存储传感器信息 [12] - 掩码图像/视频建模采用掩码自编码器技术,训练模型捕捉像素级细节,重建动态视频时引入未来帧预测任务 [14] - 多模态对齐通过触觉 - 视觉 - 文本多模态对齐整合多传感器触觉数据,以文本模态为锚点,选择最大数据子集对齐 [14] - 跨传感器匹配引入新任务,确定输入的触觉图像或视频是否采集自同一对象同一位置,对相同触觉信息的表示聚类,形成统一的多传感器表征空间 [14] 实验与分析 - 将GelSight、GelSlim、DIGIT和GelSight Mini的数据整合到AnyTouch训练中,与未接触触觉数据的CLIP模型相比,使用GelSight数据训练显著提升模型性能,整合其他传感器数据后模型在未见数据集上性能提升 [13] - 对比CLIP模型和逐步引入各组件的AnyTouch模型,跨传感器匹配任务使来自不同传感器的触觉表征在共享空间中完全混合,转向更通用的跨传感器信息 [16] - AnyTouch在已见与未见传感器的数据集上均优于现有方法,证明其在静态感知能力上的优势 [18] - 在细粒度倾倒任务实验中,结果表明从动静结合角度学习统一的多传感器表示对完成各种任务至关重要 [20]