思维链推理机制

搜索文档
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
自动驾驶之心· 2025-07-16 12:05
核心观点 - 视觉-语言-动作模型(VLA)在接触密集型任务中存在触觉感知缺失的短板,难以实现精细力控制 [2] - Tactile-VLA通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务的力控制与泛化问题 [2][6] - 研究发现视觉-语言模型(VLM)的先验知识中已包含对物理交互的语义理解,通过少量演示即可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架:首次将触觉感知作为原生模态引入VLA模型,构建多模态深度融合架构 [6] - 混合位置-力控制器:将力目标转化为位置调整指令,解决位置与力控制的协同难题 [6][11] - Tactile-VLA-CoT变体:引入思维链推理机制,基于触觉反馈自主调整策略提升稳健性 [6][15] 主要解决的问题 - 触觉感知的指令遵循:理解"轻柔地""用力地"等力相关语言修饰词 [6] - 触觉相关常识运用:基于物体属性自主调整交互力 [6] - 触觉参与的自适应推理:通过触觉反馈诊断失败并制定纠正策略 [6] Tactile-VLA框架 整体架构 - 多模态深度融合架构包含视觉、语言、触觉和本体感觉输入的统一token表示 [9][11] - 通过非因果注意力机制实现视觉、语言和触觉token的自由交互 [9] 混合位置-力控制机制 - 控制逻辑:以位置控制为主,力误差超过阈值时引入力反馈调整 [11][12] - 双通道分离:外部净力与内部抓取力分离实现精细化调节 [13] 思维链推理机制 - 触发机制:固定间隔评估任务进展,检测失败时启动推理 [18] - 推理流程:判定任务成功与否、分析失败原因、生成纠正指令 [18] 数据收集方法 - 硬件平台:基于通用操作接口(UMI)配备双高分辨率触觉传感器 [19] - 同步机制:100Hz触觉信号与20Hz视觉数据时间对齐 [19] - 标注方式:人类操作员结合触觉反馈提供演示并记录语言指令 [19] 实验验证与结果分析 触觉感知的指令遵循实验 - 任务A(USB插拔):Tactile-VLA成功率达35%,充电器任务中达90% [22][23] - 力控制精度:USB任务中"轻柔地"施加0.51N力,"用力地"施加2.57N力 [23] 触觉相关常识的运用实验 - 域内物体抓取成功率:90%-100%,域外物体达80%-100% [30] - 力调节策略:根据物体属性自主调整力度,如对易碎物体用轻力 [30] 触觉参与的自适应推理实验 - 黑板擦拭任务:Tactile-VLA-CoT成功率达80%,基线模型为0 [28][32] - 推理过程:首次尝试失败后自主增加剪切力并成功完成任务 [32]
智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一:同尺寸效果最好
IPO早知道· 2025-07-09 18:01
模型性能与突破 - GLM-4.1V-9B-Thinking凭借9B模型尺寸登顶HuggingFace Trending第一 [2] - 该模型在28项权威评测中23项达成10B级模型最佳成绩,其中18项持平或超越72B的Qwen-2.5-VL [4] - 采用"思维链推理机制"和"课程采样强化学习策略",系统性提升跨模态因果推理能力与稳定性 [3] 多模态能力 - 支持视频理解,可解析最长两小时内容并分析时间、人物、事件和逻辑关系 [4] - 具备图像问答能力,能深入分析图像内容并解答,逻辑能力和世界知识较强 [4] - 支持学科解题,包括数学、物理、生物、化学等学科的看图解题并给出详细思考过程 [4] 应用场景 - 文字识别:准确抽取图片和视频中的文字及图表内容并结构化输出 [5] - 文档解读:对金融、政务、教育等领域文档进行原生理解、抽取、提炼和问答 [5] - GUI Agent:识别网页、电脑和手机屏幕的交互界面元素,支持点击、滑动等指令执行 [5] 技术特点 - 轻量版模型参数控制在10B级别,兼顾部署效率与性能突破 [4] - 融合丰富多模态能力,包括代码生成(基于图片文字内容自动编写前端代码) [5] - 支持Grounding功能,识别图片特定区域并抽取坐标位置 [5]
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位· 2025-07-02 12:46
模型性能与突破 - GLM-4.1V-9B-Thinking在28项评测中拿下23个SOTA,成为10B参数级别效果最好的视觉语言模型(VLM)[3] - 在18项评测中,该模型性能可与8倍参数量的Qwen-2.5-VL-72B竞争甚至超越[3] - 核心突破在于引入思维链(Chain-of-Thought)推理机制和课程采样强化学习(RLCS)[4] 实际应用表现 - 成功解析西班牙超现实主义画家达利的《记忆的永恒》,识别画作中违背物理规律的视觉符号[11] - 准确解答高考数学真题,在多个大模型易翻车的题目中给出简洁精准答案[12][15] - 处理看时钟和日期问题时表现接近人类水平(时间判断存在1分钟偏差)[16][19] - 具备看手相等生活场景应用能力[20][22] 技术架构创新 - 视觉编码器采用AIMv2-Huge架构,使用三维卷积处理视频,静态图片通过复制模拟视频输入[26] - 新增二维旋转位置编码,支持宽高比超200:1的画面和4K以上分辨率[27] - 语言解码器升级为三维旋转位置编码,增强空间关系理解能力[28] - 多层感知机适配器作为视觉与语言模块的桥梁[28] 训练方法论 - 预训练阶段采用双通道并行,12万步训练,批量大小1536,输入长度8192,覆盖图文混合/OCR/定位等多类型数据[31] - 监督微调阶段使用高质量思维链数据,输入长度扩展至32768,批量32,强化复杂因果关系推理[36] - 课程采样强化学习(RLCS)结合RLVR和RLHF,采用由简至难的课程学习策略[40] 商业化进展 - 获得浦东创投集团和张江集团10亿元投资,近期将完成首次交割[5] - 模型已在Github/ModelScope/Hugging Face开源,同步上线MaaS平台API接口[41][42] 核心能力清单 - 超长视频解析(2小时时长分析)[32] - 智能读图问答与理科解题(数学/物理)[32] - 图文识别转换(OCR/表格结构化)[32] - 专业文档处理(金融/政务关键信息提取)[32] - 图像定位标注与GUI界面操作[32] - 看图写代码(前端网页自动生成)[32]