思维链推理机制 - 财报，业绩电话会，研报，新闻

思维链推理机制

搜索文档

虎嗅APP· 2025-11-24 21:21

文章核心观点 - 谷歌新发布的Nano Banana Pro图像生成模型在技术路径上实现了对物理世界的模拟，通过引入思维链推理机制，在逻辑准确性和物理真实性上对OpenAI的GPT-4o构成了显著优势 [4][10] - 技术差异源于两家公司不同的发展路径：谷歌采用“原生多模态”架构，而OpenAI采用“模块化拼接”架构，这导致了两者在模型能力上的根本区别 [27][28][29] - OpenAI在图像生成领域面临压力，其CEO萨姆·奥特曼已内部承认谷歌正在缩短差距，并带来了不小的压力 [4] 技术路径差异 - GPT-4o的生成机制基于统计学相关性，通过在海量训练数据中检索视觉特征并进行概率匹配，未真正理解数量概念或构建物理模型 [10] - Nano Banana Pro引入了思维链机制，将图像生成过程升级为逻辑推演，在生成像素前先在潜空间进行符号化规划，实现从语义理解到执行生成的全链路闭环 [10] - OpenAI体系存在“文本信息瓶颈”，用户指令需经GPT改写为详尽Prompt再传递给图像模型，此过程易导致关键约束信息丢失 [16] - Nano Banana Pro采用原生多模态架构，用户输入直接映射为包含语义、空间及物理属性的高维向量，无需文本-图像转译中介，实现端到端映射 [21] 模型能力对比 - 在处理“三个苹果”的生成任务时，GPT-4o生成的图像在细节上暴露出概率生成的缺陷，如水珠排布不符合客观规律，腐烂状态过于刻意 [6] - Nano Banana Pro输出的图像数量精确，每个对象属性严格对应，能精准还原咬痕缺口、水珠折射光感、氧化纹理等细节 [8] - 在涉及物理规律的复杂场景中，GPT-4o生成的光影关系存在物理矛盾，而Nano Banana Pro会先行计算光源向量、阴影投射方向及液体折射率 [12][14] - Nano Banana Pro在文字渲染上具有碾压性优势，能精准控制文字元素，而GPT-4o长期存在汉字书写“乱码”问题 [16][19] - Nano Banana Pro通过类似代码的提示词实现精确控制，能清晰区分不同对象属性归属，避免属性泄露问题，但提示词门槛较高 [24][25][26] 公司战略与资源禀赋 - 谷歌选择原生多模态路径，从模型训练第一天起就将文本、图像、视频、音频数据混合训练，使模型能直接理解多模态信息 [28] - OpenAI走模块化拼接路线，让不同专业模块各司其职，再通过API连接，其策略强调快速迭代和产品市场契合度 [29][38] - 谷歌拥有YouTube这一全球最大视频库，内含几十亿小时包含时间序列和因果关系的动态数据，为模型理解物理世界运行逻辑提供了独特优势 [31] - 谷歌通过几十年OCR技术积累，拥有全球最大的图片-文字对齐数据库，这直接支撑了其在文字渲染上的优势 [33] - OpenAI起家于文本，其视觉能力是后期添加，训练数据主要来自网络抓取的静态图片，缺乏时间维度和物理过程信息 [33][34] 训练方式与产品理念 - OpenAI采用RLHF路线，雇佣人类标注员对生成图片打分，导致模型被训练成“讨好型人格”，倾向于生成色彩鲜艳、构图完美但牺牲物理真实感的图像 [35] - 谷歌的训练更注重“真实”而非“美”，其目标是实现“Grounding”，即模型的输出更接地气和真实 [35][36] - 谷歌为实现质的提升，不惜增加计算成本，在图像生成过程中引入思考步骤，通过思维链让模型先理解再生成 [36][37] - OpenAI将最强推理能力集中在o1系列模型上，对于图像生成，其判断是GPT-4o的“直觉式”生成已足够维持市场领先，无需继续提升 [38] - OpenAI的“胶水科技”市场策略导致积累了大量技术债，未来若想转向原生多模态将面临巨大挑战 [39]

TACTILE-VLA：激活VLA模型的物理知识以实现触觉泛化（清华大学最新）

自动驾驶之心· 2025-07-16 12:05

核心观点 - 视觉-语言-动作模型（VLA）在接触密集型任务中存在触觉感知缺失的短板，难以实现精细力控制 [2] - Tactile-VLA通过深度融合视觉、语言、动作与触觉感知，激活VLA模型中隐含的物理知识，解决接触密集型任务的力控制与泛化问题 [2][6] - 研究发现视觉-语言模型（VLM）的先验知识中已包含对物理交互的语义理解，通过少量演示即可激活该知识实现零样本泛化 [6] 核心创新与研究目标关键发现 - VLM的先验知识包含物理交互语义理解，通过触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架：首次将触觉感知作为原生模态引入VLA模型，构建多模态深度融合架构 [6] - 混合位置-力控制器：将力目标转化为位置调整指令，解决位置与力控制的协同难题 [6][11] - Tactile-VLA-CoT变体：引入思维链推理机制，基于触觉反馈自主调整策略提升稳健性 [6][15] 主要解决的问题 - 触觉感知的指令遵循：理解"轻柔地""用力地"等力相关语言修饰词 [6] - 触觉相关常识运用：基于物体属性自主调整交互力 [6] - 触觉参与的自适应推理：通过触觉反馈诊断失败并制定纠正策略 [6] Tactile-VLA框架整体架构 - 多模态深度融合架构包含视觉、语言、触觉和本体感觉输入的统一token表示 [9][11] - 通过非因果注意力机制实现视觉、语言和触觉token的自由交互 [9] 混合位置-力控制机制 - 控制逻辑：以位置控制为主，力误差超过阈值时引入力反馈调整 [11][12] - 双通道分离：外部净力与内部抓取力分离实现精细化调节 [13] 思维链推理机制 - 触发机制：固定间隔评估任务进展，检测失败时启动推理 [18] - 推理流程：判定任务成功与否、分析失败原因、生成纠正指令 [18] 数据收集方法 - 硬件平台：基于通用操作接口（UMI）配备双高分辨率触觉传感器 [19] - 同步机制：100Hz触觉信号与20Hz视觉数据时间对齐 [19] - 标注方式：人类操作员结合触觉反馈提供演示并记录语言指令 [19] 实验验证与结果分析触觉感知的指令遵循实验 - 任务A（USB插拔）：Tactile-VLA成功率达35%，充电器任务中达90% [22][23] - 力控制精度：USB任务中"轻柔地"施加0.51N力，"用力地"施加2.57N力 [23] 触觉相关常识的运用实验 - 域内物体抓取成功率：90%-100%，域外物体达80%-100% [30] - 力调节策略：根据物体属性自主调整力度，如对易碎物体用轻力 [30] 触觉参与的自适应推理实验 - 黑板擦拭任务：Tactile-VLA-CoT成功率达80%，基线模型为0 [28][32] - 推理过程：首次尝试失败后自主增加剪切力并成功完成任务 [32]

智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一：同尺寸效果最好

IPO早知道· 2025-07-09 18:01

模型性能与突破 - GLM-4.1V-9B-Thinking凭借9B模型尺寸登顶HuggingFace Trending第一 [2] - 该模型在28项权威评测中23项达成10B级模型最佳成绩，其中18项持平或超越72B的Qwen-2.5-VL [4] - 采用"思维链推理机制"和"课程采样强化学习策略"，系统性提升跨模态因果推理能力与稳定性 [3] 多模态能力 - 支持视频理解，可解析最长两小时内容并分析时间、人物、事件和逻辑关系 [4] - 具备图像问答能力，能深入分析图像内容并解答，逻辑能力和世界知识较强 [4] - 支持学科解题，包括数学、物理、生物、化学等学科的看图解题并给出详细思考过程 [4] 应用场景 - 文字识别：准确抽取图片和视频中的文字及图表内容并结构化输出 [5] - 文档解读：对金融、政务、教育等领域文档进行原生理解、抽取、提炼和问答 [5] - GUI Agent：识别网页、电脑和手机屏幕的交互界面元素，支持点击、滑动等指令执行 [5] 技术特点 - 轻量版模型参数控制在10B级别，兼顾部署效率与性能突破 [4] - 融合丰富多模态能力，包括代码生成（基于图片文字内容自动编写前端代码） [5] - 支持Grounding功能，识别图片特定区域并抽取坐标位置 [5]

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

量子位· 2025-07-02 12:46

模型性能与突破 - GLM-4.1V-9B-Thinking在28项评测中拿下23个SOTA，成为10B参数级别效果最好的视觉语言模型（VLM）[3] - 在18项评测中，该模型性能可与8倍参数量的Qwen-2.5-VL-72B竞争甚至超越[3] - 核心突破在于引入思维链（Chain-of-Thought）推理机制和课程采样强化学习（RLCS）[4] 实际应用表现 - 成功解析西班牙超现实主义画家达利的《记忆的永恒》，识别画作中违背物理规律的视觉符号[11] - 准确解答高考数学真题，在多个大模型易翻车的题目中给出简洁精准答案[12][15] - 处理看时钟和日期问题时表现接近人类水平（时间判断存在1分钟偏差）[16][19] - 具备看手相等生活场景应用能力[20][22] 技术架构创新 - 视觉编码器采用AIMv2-Huge架构，使用三维卷积处理视频，静态图片通过复制模拟视频输入[26] - 新增二维旋转位置编码，支持宽高比超200:1的画面和4K以上分辨率[27] - 语言解码器升级为三维旋转位置编码，增强空间关系理解能力[28] - 多层感知机适配器作为视觉与语言模块的桥梁[28] 训练方法论 - 预训练阶段采用双通道并行，12万步训练，批量大小1536，输入长度8192，覆盖图文混合/OCR/定位等多类型数据[31] - 监督微调阶段使用高质量思维链数据，输入长度扩展至32768，批量32，强化复杂因果关系推理[36] - 课程采样强化学习（RLCS）结合RLVR和RLHF，采用由简至难的课程学习策略[40] 商业化进展 - 获得浦东创投集团和张江集团10亿元投资，近期将完成首次交割[5] - 模型已在Github/ModelScope/Hugging Face开源，同步上线MaaS平台API接口[41][42] 核心能力清单 - 超长视频解析（2小时时长分析）[32] - 智能读图问答与理科解题（数学/物理）[32] - 图文识别转换（OCR/表格结构化）[32] - 专业文档处理（金融/政务关键信息提取）[32] - 图像定位标注与GUI界面操作[32] - 看图写代码（前端网页自动生成）[32]

多模态AI

思维链推理机制

课程采样强化学习

Artificial Intelligence

Artificial Intelligence

GLM-4.1V-9B-Thinking