视觉推理 - 财报，业绩电话会，研报，新闻 - Reportify

视觉推理

搜索文档

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型，推动自动驾驶迈向视觉推理

机器之心· 2025-09-30 16:45

核心观点 - FSDrive提出“时空视觉链式思考”方法，以统一的未来图像帧作为中间推理步骤，替代传统的文字或符号中介，旨在解决自动驾驶多模态大模型在推理过程中的时空关系模糊与信息丢失问题 [2][7] - 该方法的核心创新在于让模型直接“以图思考”，联合预测未来场景与感知结果，在视觉域内完成因果推断与决策规划，推动自动驾驶从“符号推理”走向“视觉推理” [7][28] 技术创新 - 提出统一的“视觉中介”替代文字或符号中介，通过生成包含红色车道线和3D检测框的未来图像帧作为时空CoT，消除跨模态语义鸿沟 [7][8] - 以极小代价在现成多模态大语言模型上激活图像生成能力：仅通过扩展词表引入视觉token，无需改动模型架构或进行海量训练 [8][19] - 采用渐进式视觉CoT训练策略，先生成受物理约束的粗粒度感知图，再生成细节丰富的未来帧，显式注入物理合理性以提升预测真实性与一致性 [8][14][19] 方法框架 - 框架采用统一预训练范式，兼具理解与生成能力，输入为环视图像与任务指令，输出为统一未来帧和最终轨迹 [12][13] - 模型扮演双重角色：首先生成未来统一帧作为“世界模型”，然后作为“逆动力学模型”进行轨迹规划 [13][27] - 训练分为两个阶段：第一阶段进行统一预训练，混合训练视觉问答、未来帧生成及渐进式感知生成；第二阶段进行有监督微调，联合优化场景理解与轨迹规划 [19] 性能表现 - 在端到端轨迹规划任务中，基于Qwen2-VL-2B模型的FSDrive在ST-P3指标上平均L2误差为0.53米，碰撞率为0.19%；在UniAD指标上平均L2误差为0.96米，碰撞率为0.40%，优于对比方法 [17][29] - 在未来帧生成质量上，FSDrive在128×192分辨率下FID得分达到10.1，优于多数扩散式世界模型，兼顾了实时性与生成质量 [21][22] - 在场景理解任务中，FSDrive的Final Score达到0.57，多项语言生成指标与多选准确率表现稳健，验证了其“理解+生成”统一预训练的有效性 [23][25]

多模态大语言模型（MLLM）

时空视觉CoT

Doe-1（Lumina-mGPT-7B）

多模态大语言模型（MLLM）

时空视觉CoT

Doe-1（Lumina-mGPT-7B）

NeurIPS'25 Spotlight！自驾新范式FSDrive: VLA + 世界模型双管齐下（阿里&西交）

自动驾驶之心· 2025-09-22 07:32

核心观点 - 提出一种名为时空思维链（spatio-temporal CoT）的新型推理方法，旨在解决现有视觉语言模型在自动驾驶中因使用离散文本思维链而导致的信息丢失问题 [1] - 该方法使视觉语言模型能够以可视化方式思考，通过生成统一图像帧来预测未来世界状态，从而增强轨迹规划能力 [1][5] - 提出统一的视觉生成与理解预训练范式，并设计渐进式生成策略，仅需极少量数据（约为现有方法的0.3%）即可激活模型的视觉生成潜力 [6][12] 技术方法 - 时空思维链推理：视觉语言模型作为世界模型生成统一图像帧，其中用红色车道分隔线和3D检测框表征未来空间关系，用普通未来帧表征时间演化动态关系 [5][16] - 统一视觉生成与理解预训练：基于现有MLLM架构，通过将VQ-VAE的图像码本加入大模型词汇表来扩展词汇空间，使其具备预测图像token的能力 [10][12] - 渐进式图像生成：采用由易到难的生成策略，先推理车道线token和3D检测框token以施加物理约束，再生成完整的未来帧补充细粒度细节 [6][15] 实验结果 - 在nuScenes数据集上的端到端轨迹规划实验中，FSDrive方法在多个指标上表现优异，例如在使用自车状态时，其L2距离在3秒预测 horizon 上达到0.46米，碰撞率为0.21% [19] - 在未来帧生成任务中，FSDrive取得了10.1的FID分数，优于对比方法如DriveDreamer（52.6 FID）和GenAD（15.4 FID） [20] - 在DriveLM GVQA基准测试中，FSDrive的最终得分达到0.57，准确率为72%，优于OminiDrive（0.56分，70%准确率）和Cube-LLM（0.50分，39%准确率） [22]

时空思维链

统一视觉生成与理解预训练

时空思维链

统一视觉生成与理解预训练

当AI成“视觉神探”，准确性如何？隐私暴露风险如何抵御？

21世纪经济报道· 2025-08-21 15:18

行业技术发展动态 - 智谱AI推出全球100B级视觉推理模型GLM-4.5V 具备不依赖搜索工具精准识别图像细节及推测拍摄地点的能力 [1] - 视觉推理成为大模型竞争焦点 OpenAI、谷歌、豆包、通义千问等国内外企业均推出多模态视觉推理模型 [1][5] - 豆包APP在实测中实现100%地理位置识别准确率智谱GLM-4.5V准确率为60% 通义千问QVQ-Max准确率为20% [2][3] - 典型地标（如国家跳台滑雪中心、杭州西湖）识别准确率最高模糊信息场景下模型表现出现显著差异 [3][4] - 联网功能显著提升识别准确度豆包通过联网搜索比对实现100%准确率 [4] 技术能力细节 - 模型优先依据地标、人物、文字等关键元素进行推理在包含明确文字信息的图片中表现更优 [3][4] - 智谱GLM-4.5V在"图寻游戏"全球积分赛中击败99%人类玩家体现其超越人类的速度与精度 [6] - 豆包支持图片放大、裁剪及搜索功能通义千问支持图像解析与视频分析技术功能持续升级 [5] 应用与风险关注 - 多模态大语言模型可大幅降低非专业人员从社交媒体图像提取用户位置数据的门槛 [6] - 具备视觉推理能力的大模型目前均可免费使用且未对敏感信息识别请求进行限制 [7] - 研究显示11个先进多模态模型在地理位置推断方面始终优于非专业人士构成潜在隐私威胁 [6]

隐私泄露风险

Artificial Intelligence

通义千问QVQ - Max

隐私泄露风险

Artificial Intelligence

通义千问QVQ - Max

当AI成”视觉神探“，准确性如何？隐私暴露风险如何抵御？

21世纪经济报道· 2025-08-21 15:09

视觉推理技术发展现状 - 智谱AI推出全球100B级视觉推理模型GLM-4.5V 具备精准图像细节识别和地理位置推理能力 [1] - OpenAI、谷歌、豆包、通义千问等国内外公司竞相推出具备视觉推理能力的大模型强调多模态水平 [1] - 视觉推理能力成为大模型性能发力点技术发展迅速新模型不断涌现 [6] 多模态模型实测表现 - 豆包APP在5张测试图片中准确率达100% 表现最优 [2] - 智谱GLM-4.5V准确率为60% 通义千问QVQ-Max准确率为20% [2] - 地标照片识别准确率最高如国家跳台滑雪中心和杭州西湖均被三个模型准确识别 [3][4] - 豆包凭借联网搜索能力显著提升准确率在识别人民大学校训石时通过联网比对得出正确答案 [4][5] 技术应用与隐私风险 - 多模态大语言模型在地理位置推断方面优于非专业人士大幅降低从社交媒体图像提取用户位置数据的门槛 [7] - 智谱GLM-4.5V在"图寻游戏"中击败99%人类玩家体现其超越人类的速度与精度 [7] - 实测显示三个大模型均可免费使用在看图定位时未限制使用范围且未拒绝识别人物身份的敏感指令 [8] - 研究表明确位置推断能力可能构成严重的隐私威胁 [7]

Artificial Intelligence

通义千问QVQ - Max

Artificial Intelligence

通义千问QVQ - Max

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

机器之心· 2025-08-12 11:10

模型能力 - GLM-4.5V在「图寻」游戏全球积分赛中击败了99.99%的人类玩家，展现出超强视觉推理能力[9] - 模型能通过建筑风格、植被类型、道路标识等环境信息进行精准定位，甚至给出精确经纬度[20][21] - 在视觉错觉测试中，模型快速识别出穿蓝色上衣和白色裤子的人与穿紫色衣服的人[16] - 模型能准确读取模糊光线下的时钟时间，克服了AI系统读取时钟准确率仅38.7%的行业难题[38][41] - 对相似场景如慕田峪与八达岭长城，模型能根据墙体完整度和游客数量等细节精准区分[44][47] 技术架构 - GLM-4.5V采用106B总参数、12B激活参数的架构，支持64K多模态长上下文[127] - 视觉编码器采用AIMv2-Huge，通过三维卷积提升视频处理效率[127] - 引入二维旋转位置编码和双三次插值机制，增强高分辨率图像适应性[127] - 语言解码器采用3D-RoPE位置编码，提升多模态空间理解能力[127] - 训练采用三阶段策略：预训练、监督微调和强化学习，在41个公开视觉多模态榜单达到开源SOTA水平[128][129] 应用场景 - 在安防监控领域，模型能处理含视觉错觉和遮挡的图片，具备高准确率识别能力[19] - 前端开发中，模型可根据截图或视频复刻网页布局，实现可交互功能[87][91][93] - 教育领域能总结10分钟英文演讲视频，准确提取人物、地点和事件等关键信息[61][65] - 本地文档处理方面，模型能解读论文图表并理解数据逻辑关系[101][103] - 在景区寻人等场景，模型可精准识别特定特征的人员或宠物[112][113] 行业影响 - 模型开源策略推动行业从性能竞赛转向实用价值创造，提升开发者定制灵活性[132] - 在GUI Agent领域展现核心能力，如准确定位电商商品和PPT操作按钮[121][123] - 视觉推理能力覆盖复杂图表、多图长文本等实际任务，拓展多模态应用边界[10] - 相比闭源模型，开源方案提供更高透明度，促进AI技术在各行业落地[132] - 模型实战表现优于benchmark成绩，反映行业向真实场景效果评估的转变趋势[131]

多模态模型

Artificial Intelligence

多模态模型

Artificial Intelligence

豆包悄悄上线的这个新功能，也能用眼睛推理全世界了。

数字生命卡兹克· 2025-08-07 09:05

豆包AI功能更新 - 豆包在手机场景下使用频率较高，尤其在未开启魔法上网时体验优于ChatGPT [1] - 新增深度思考模式下的视觉推理功能，可对上传图片展开思维链式分析 [4][5][21] - 视觉推理能力与OpenAI O3相当但完全免费，实现技术平权 [21][22] 视觉推理应用案例 - 识别ChinaJoy展会中暴雪展台泰瑞尔形象并准确反馈 [3][16] - 通过视频截图定位深圳旺吉利海鲜大排档，验证结果与大众点评商家动态一致 [24][27][29] - 解析德爷刷盘子的牛杂店细节，在文字信息不全时通过图像补充得出正确答案 [35][37] - 识别表情包出处，准确关联太太乐鸡精和双汇火腿肠广告形象 [39][41][43] - 对奥特曼形象（爱迪、盖亚）及《甄嬛传》名场面实现精确到集的识别 [45][49] 专业场景测试表现 - 正确解答公务员行测题中对称图形问题，完成复杂题型推理 [51][52] - 快速定位考眼力题目中的目标字母F [53] - 识别宗庆后全家福成员身份，包括宗馥莉等关键人物 [55] 技术局限性 - 存在手指数量误判等典型大模型幻觉问题 [57] - 对非公众人物照片识别准确率较低，曾将用户误判为电竞选手或导演 [62] 跨领域知识串联 - 通过电影《浪浪山小妖怪》场景关联黑神话中佛光寺地点，实现文化IP联动 [66][68][73] - 体现AI在知识整合方面的潜力，能快速串联分散线索形成认知闭环 [76][77]

o3出圈玩法“看图猜位置”，豆包也安排上了！还是人人免费用那种

量子位· 2025-07-30 14:06

豆包APP视觉推理功能升级 - 核心功能升级为视觉推理，支持图片深度思考，通过开启深度思考模式可拍照或上传图片进行分析[4][5] - 分析过程结合以图搜图、图片分析工具（放大/裁剪/旋转）等多步骤，例如识别上海东方明珠年份为1999年左右[1][7][8] - 支持AI识别AI生成图片，通过放大细节识别右图西红柿蒂部不自然卷曲判定为AI生成[10][11][13] 实测场景表现 - 复杂图像处理：在熊猫群像中精准定位足球，采用"初步识别→放大区域→空间定位"三步骤[17][22][25] - 小众知识检索：识别鄂温克族口弦琴、云南翅果藤等冷门内容，结合图片检索+文字检索双重验证[29][34][35] - 学术与工作辅助：解答IMO数学题（经ChatGPT验证答案正确），一键提取财报数据并保持准确性[40][43][46][49] 技术模式创新 - 采用"边想边搜"动态推理机制，区别于传统AI"先搜后想"，支持多轮搜索与工具调用[50][52][53] - 实现图搜文能力，例如通过技术截图反向定位OpenAI论文原文及图表出处[62][64][65] - 多模态融合：Transformer架构统一处理文字/图像/音频，支撑工业检测、医疗分析等场景需求[72][75] 行业趋势 - 视觉推理成为大模型技术新门槛，OpenAI的o3/o4-mini推动多模态深度理解范式[68][69][70] - 技术成熟度与行业需求（工业/医疗）形成共振，促进行业竞速发展[71][74][76] - 豆包APP将高阶视觉推理功能免费开放，降低用户使用门槛[76][77]

多模态智能

Artificial Intelligence

多模态智能

Artificial Intelligence

智谱再获10亿融资，推出会看“苏超”的开源新模型

观察者网· 2025-07-03 18:30

核心观点 - 智谱发布新一代通用视觉语言模型GLM-4.1V-Thinking，突破多模态推理能力，并在多项评测中超越更大参数模型 [1][7][10] - 公司获得10亿元战略融资，联合上海国资打造"算电模"一体化基础设施，建设万卡集群 [3][5] - 大模型商业化加速，API调用量同比增长30倍，价格大幅下调80%-90% [12][14] - Agent平台和智能硬件成为商业化落地重点方向 [15][18][19] 技术突破 - GLM-4.1V-Thinking支持图像/视频/文档输入，引入思维链推理机制和课程采样强化学习策略 [7] - 轻量版GLM-4.1V-9B-Thinking在28项评测中23项领先10B级模型，18项持平72B的Qwen-2.5-VL [7][8] - 模型实现动态视频理解能力，可完成足球解说、GUI操作等复杂任务 [9][10] - 90亿参数模型性能超越GPT-4o，接近720亿参数的Qwen-2.5-VL [10] 资本与生态 - 年内完成5轮融资，最新10亿元融资由浦东创投和张江集团联合投资 [3][5] - 与上海仪电、浦发集团共建"算电模"设施，利用绿电直连支撑万卡集群 [5] - "模力社区"已聚集近70家垂类大模型企业，25家完成安全备案 [3] 商业化进展 - API日均Token调用量同比增30倍，消耗金额增52% [12] - GLM-4-Plus等API价格降幅达90%，推动应用普及 [14] - 推出Agent聚合平台"应用空间"，启动数亿元专项扶持计划 [1][15] - 教育、医疗、企服等领域Agent落地周期有望提前 [17] 行业趋势 - 上海将发展AGI作为战略任务，重点突破算力、语料、基础模型 [6] - AI向自主智能体演进，可能催生全新商业模式 [17] - 端侧算力提升推动AI能力嵌入汽车、眼镜等智能硬件 [18][19]

通用人工智能（AGI）

开源大模型

商业化落地

Artificial Intelligence

GLM-4.1V-Thinking

通用人工智能（AGI）

开源大模型

商业化落地

Artificial Intelligence

GLM-4.1V-Thinking

大模型角力视觉推理，推理AI新时代来临

21世纪经济报道· 2025-07-03 13:11

多模态大模型技术突破 - 智谱发布并开源视觉语言大模型GLM-4.1V-Thinking，支持图像、视频、文档等多模态输入，具备复杂认知任务处理能力 [1] - 模型通过预训练构造视觉理解模型，监督微调提升推理能力，首次实现推理与视觉理解的有机结合 [1] - 2023年视觉推理成为行业竞争焦点，OpenAI、字节跳动、阿里等企业相继推出具备视觉推理能力的模型 [1] 视觉推理能力应用场景 - 多模态模型可解析PDF中的图片、图表、表格布局，理解页面结构，提升结构化信息提取效率 [3] - GLM-4.1V-Thinking支持图片理解（如看图买菜）、数学与科学推理（如几何题解）、视频时序分析与事件逻辑建模 [3] - 视觉推理能力可应用于GUI与网页智能体任务，实现交互操作，提升人机交互可控性 [4] - 模型能与Python数据分析、网络搜索等工具协同，解决复杂问题，提供多模态Agent体验 [4] 商业化落地路径 - 面向B端客户提供Agent应用空间，降低企业接入门槛，实现成熟、安全、可控的Agent能力 [6] - Agent类型包括任务型、交互型、自主型、协作型，目标为替代基础性、重复性工作以提升效率 [6] - 视觉推理与工具调用深度融合，加速教育、医疗、企服等垂直场景的Agent商业化进程 [6] - 生成式AI向"自主智能体"演进，可能催生全新商业模式 [7] 智能硬件与端侧部署 - 早期模型依赖云端推理，现通过端侧算力提升实现端云结合，部署于汽车、AI眼镜等硬件 [8] - 未来机器人、汽车、眼镜等设备均将接入AI能力，形成更广泛的应用生态 [9]

自主智能体

Artificial Intelligence

GLM-4.1V-Thinking

自主智能体

Artificial Intelligence

GLM-4.1V-Thinking

OpenAI深夜上线o3满血版和o4 mini - 依旧领先。

数字生命卡兹克· 2025-04-17 04:34

模型发布与更新 - OpenAI发布o3和o4-mini模型，取代原有的o1、o3-mini和o3-mini-high模型，ChatGPT Plus、Pro和Team用户可立即使用[1] - o3 Pro版本需等待几周后才提供[2] - o3和o4-mini是o系列最新视觉推理模型，首次实现思维链中图像思考能力[2] 模型性能提升 - o3在AIME数学赛准确率从裸模91.6%提升至调用Python后的95.2%，o4-mini从93.4%提升至98.7%[5] - 在跨学科PhD级科学题(GPQA Diamond)上，o3以83.3%领先o4-mini的81.4%[5] - 专家级综合测试(Humanity's Last Exam)中，o3从20.3%提升至24.9%，o4-mini从14.3%提升至17.7%[5] - 多模态能力显著提升：o3在MMMU数据集从77.6%提升至82.9%，MathVista从71.8%提升至87.5%，CharXiv-Reasoning从55.1%提升至75.4%[8] 工具与代码能力 - o3首次实现满血版工具使用能力[2] - 在SWE-Lancer自由职业软件工程任务中表现突出[11] - 浏览器任务能力接近DeepResearch水平[14] - 函数调用能力(Tau-bench)相比o1未明显提升[14] - o3准确率0.59高于o4-mini的0.36，但幻觉率0.33也高于o4-mini的0.48和o1的0.16[15][16] 定价策略 - o3定价$10/$40(输入/输出)，比o1的$15/$60便宜三分之一[17] - o4-mini保持$1.1/$4.4价格不变[17] - 所有新模型支持20万token上下文窗口和10万token最大输出[17] 视觉推理突破 - o3首次实现真正意义上的视觉推理能力，能像人类一样分析图像[18] - 成功识别北京门头沟109国道妙峰山段的具体位置[21][22][24] - 具备专业场景观察力潜力，可能改变安全监控、设计审稿、医疗影像等行业[30] 其他更新 - 开源AI编程工具Codex[31][33] - 视觉推理能力被视为范式级跃迁，可能带来行业变革[30][33]

Artificial Intelligence

Artificial Intelligence