Workflow
数据飞轮机制
icon
搜索文档
V-Thinker: 让模型像人一样「边画边想」
机器之心· 2025-12-25 09:20
研究背景与目标 - 人类解决复杂视觉问题时,视觉交互是重要的认知工具,例如在几何解题中添加辅助线或在常识推理中添加标注[3] - 早期研究如LLaVA-Plus、Visual Sketchpad开始探索在推理过程中引入视觉操作,强化学习方法的引入显著提升了模型在复杂视觉场景中的表现[3] - 后续工作如o3、DeepEyes、Thyme表明,模型可以在强化学习引导下自主生成代码,通过放大、裁剪、旋转等操作与图像交互,实现基于图像思考的推理范式[3] - 研究团队提出核心问题:模型是否能像人一样,在推理过程中实现“边画边思考”的视觉推理范式[3] 核心方法与框架 - 提出V-Thinker,一个面向视觉交互推理的多模态推理框架,通过冷启动监督微调与强化学习相结合的训练,使模型能在推理过程中自主生成代码并与图像交互,实现“边画边思考”[3] - 核心思想是“让模型充当造题者,而非解题者”,通过数据演化飞轮自动合成、演化并校验视觉交互推理数据[8][10] - 设计了一套渐进式视觉训练范式,首先构建V-Perception-40K数据集提升模型的视觉感知能力,再通过结合监督微调与强化学习的两阶段训练,使模型掌握基于视觉交互的推理能力[3][16][18] 数据构建与演化 - 提出Data Evolution Flywheel(数据演化飞轮),能在多样性、质量与难度三个维度上自动合成、演化并校验视觉交互推理数据[3] - 通过引导GPT-5生成依赖视觉交互的推理问题,发现其生成的代码能渲染出结构、语义一致的高质量图像,并与推理过程保持良好一致性[10] - 从初始知识点和工具集合出发,通过循环迭代,最终召回了超过2万个新知识点,覆盖数学、物理、音乐等25个领域[12] - 构建了Checker对问题与答案、原始图像、视觉操作后的图像进行一致性校验,并引入拓展器通过重构问题来提升问题难度和增加视觉交互轮次[12] - 最终构建并开源了大规模交互推理数据集V-Interaction-400K,为视觉交互推理和图像到代码转换等任务提供了基础支撑[3][13] 训练策略 - 第一阶段(感知能力):构建感知数据集V-Perception-40K,通过视觉元素关系、元素数量及知识点进行建模,并设计不同层级的问题进行自动合成感知数据,以此训练模型的细粒度定位能力[16] - 第二阶段(交互推理能力):采用“SFT + GRPO”的训练策略,使模型逐步具备稳定的视觉交互推理能力[18] - 冷启动阶段通过V-Interaction-400K实现初步对齐[21] - 强化学习阶段从V-Interaction-400K中采样了3千条数据,并从We-Math 2.0、MMK12、ThinkLite等开源工作中进行采样,构成训练数据[21] - 训练框架与奖励函数遵循Thyme的架构与设定,引导模型在推理过程中生成并执行视觉操作代码,在Sandbox中执行代码并返回操作后的图片再次输入至模型进行后续推理[21] 评测体系与结果 - 构建了VTBench,一个面向视觉交互推理场景的专家标注基准,聚焦于必须通过与图像交互才能完成的问题[3][20] - 所有样本来自多个公开数据集及公共平台,并由人工进行标注,通过人工投票筛选确保视觉交互是解题所必需[20] - VTBench从推理过程的不同阶段出发,构建了三种任务:对视觉元素的感知能力、在明确指令下执行视觉操作的能力,以及在推理过程中面向需要视觉交互任务的解题能力[23] - 定量分析显示,V-Thinker-7B在VTBench的三类交互任务中均显著优于基线模型,平均准确率达30.2%,相比Qwen2.5-VL-7B提升12.5个百分点[24] - 在Instruction-Guided Interaction场景中,V-Thinker性能提升超过22.8个百分点[24] - 在通用视觉推理基准中,V-Thinker在MathVision等复杂多步推理任务上取得6.3个百分点的性能提升[24][25] 能力分析与影响 - 交互式视觉推理能力显著提升,V-Thinker能够稳定生成符合问题需求的图像编辑操作,如绘制辅助线、标注关键区域或完成结构化重绘[26] - 在部分不强制要求视觉交互的任务中,模型亦会主动对图像进行标注以辅助中间推理过程,表明视觉交互已逐渐内化为其推理策略的一部分[26] - 强化学习多路径交互探索能力显著增强,V-Thinker在同一图像条件下能生成多样化的交互路径,覆盖更广泛的解空间,提升了模型的可解释性[29] - 推理过程可视化与可解释性提升,模型能在推理过程中自主生成并执行图像编辑代码,即时渲染中间结果,将文本推理过程外化为可观察的视觉中间过程[31] 数据飞轮效果与知识演化 - 数据飞轮驱动的知识体系持续扩展,从初始知识点出发,最终形成覆盖25个领域、24,000余个知识点的层次化知识体系[36] - 随着演化轮次增加,知识点与视觉工具数量呈现明显的非线性增长趋势,在五轮演化后整体规模扩展至初始种子的约50倍[38] - 更丰富的初始知识点或工具集合能够带来更优的演化轨迹,凸显了初始种子多样性在数据飞轮持续演化过程中的重要作用[38] 总结与行业意义 - V-Thinker推动了“Thinking with Images”方向的发展,展示了模型不仅可以“看图推理”,还可以在推理过程中自主生成并执行代码,与图像进行交互,实现真正意义上的“边画边思考”[40] - 通过引入代码驱动的视觉交互机制、数据演化飞轮以及渐进式训练范式,V-Thinker不仅在数学任务中展现出了交互能力,更在通用场景展现出了泛化能力[40] - 随着模型规模和能力的持续提升,推理范式及应用场景将有全新的发展可能性,数据构建范式有望进一步演化,模型充当造题者或许具备创造知识的可能性[40] - 该工作首月数据下载次数突破10K+,在X平台上获得了一定的关注度[5]
服装、康养、物流三大赛道,或成为具身智能机器人落地先行区
机器人大讲堂· 2025-08-26 19:56
机器人“大脑”的进化与突破 - 机器人核心竞争力在于“大脑”智能水平 直接决定复杂环境中的感知、决策与执行能力[2] - 机器人智能系统从单一模态处理迈向多模态融合 形成基础模型到综合应用的完整技术链条[2] - 视觉语言模型(VLM)使感知能力实现质的飞跃 例如ViLa算法借助GPT-4V在复杂场景中主动规划任务流程[4] - 视觉语言动作模型(VLA)将运动控制纳入智能系统 实现从感知到行动的闭环 例如RT-H模型通过语言干预修正动作偏差[4] - 目标检测、3D语言映射、对象表示等核心能力显著进步 F3RM技术将2D图像特征转化为3D空间连续表示[5] - 策略学习与任务规划算法突破使机器人在未知环境中任务成功率提升40%以上[5] 从技术瓶颈到场景落地 - 通用机器人产业化受制于三大瓶颈:真机数据匮乏、模型推理迟缓、运动控制复杂[6] - 构建“数据飞轮”机制解决真机数据短缺 例如傅利叶开源Fourier ActionNet数据集提供3万条真机训练数据[6] - 垂直领域采用“小而精”模型设计解决推理速度问题 例如Helix VLA模型以200Hz速度执行实时调整 使物流场景包裹处理效率提升20%[8] - 通过形态创新缓解运动控制复杂性 轮式机器人控制难度降低60%以上 运动控制精度达到±0.1mm[9] - 垂直领域机器人部署周期从18个月缩短至6个月 部署成本下降50% 任务成功率从60%提升至90%以上[9] 三大场景率先爆发 - 服装行业自动化瓶颈突出 缝纫环节占70%人工成本 技术突破使布料材质识别准确率达97.5% 布料折叠长期规划成功率提升至85%[11] - 服装机器人有望3-5年内实现缝纫环节自动化率从5%到50%的跨越[11] - 康养场景面临养老护理员缺口超千万 政策要求居家机器人完成200户家庭验证 社区机器人覆盖20个应用场景[13] - 物流行业拆零拣选环节自动化率低 占仓储作业量40%以上 具身智能机器人介入后条码扫描成功率从70%提升至95%[14] - 美国仓储行业有超100万个材料搬运岗位空缺 预计2025年物流机器人行业规模突破50亿美元[14] 产业生态与投资机遇 - 控制器企业有望崛起 例如华中数控具身智能工作站在柔性制造场景突破 拓斯达解决精密装配协同操作难题[16] - 服装行业投资机会聚焦缝制设备智能化升级 杰克股份牵头国家重点研发计划 奥比中光3D视觉传感器准确率达92%[17] - 康养机器人领域多技术路线并行 优必选推出家庭服务机器人 亿嘉和RK100机器人融合力反馈与情感识别技术[17] - 物流机器人投资逻辑围绕自动化系统集成 兰剑智能料箱机器人系统效率提升30% 中科微至构建完整解决方案[19]