视觉推理 - 财报，业绩电话会，研报，新闻

视觉推理

搜索文档

数字生命卡兹克· 2025-08-07 09:05

豆包AI功能更新 - 豆包在手机场景下使用频率较高，尤其在未开启魔法上网时体验优于ChatGPT [1] - 新增深度思考模式下的视觉推理功能，可对上传图片展开思维链式分析 [4][5][21] - 视觉推理能力与OpenAI O3相当但完全免费，实现技术平权 [21][22] 视觉推理应用案例 - 识别ChinaJoy展会中暴雪展台泰瑞尔形象并准确反馈 [3][16] - 通过视频截图定位深圳旺吉利海鲜大排档，验证结果与大众点评商家动态一致 [24][27][29] - 解析德爷刷盘子的牛杂店细节，在文字信息不全时通过图像补充得出正确答案 [35][37] - 识别表情包出处，准确关联太太乐鸡精和双汇火腿肠广告形象 [39][41][43] - 对奥特曼形象（爱迪、盖亚）及《甄嬛传》名场面实现精确到集的识别 [45][49] 专业场景测试表现 - 正确解答公务员行测题中对称图形问题，完成复杂题型推理 [51][52] - 快速定位考眼力题目中的目标字母F [53] - 识别宗庆后全家福成员身份，包括宗馥莉等关键人物 [55] 技术局限性 - 存在手指数量误判等典型大模型幻觉问题 [57] - 对非公众人物照片识别准确率较低，曾将用户误判为电竞选手或导演 [62] 跨领域知识串联 - 通过电影《浪浪山小妖怪》场景关联黑神话中佛光寺地点，实现文化IP联动 [66][68][73] - 体现AI在知识整合方面的潜力，能快速串联分散线索形成认知闭环 [76][77]

o3出圈玩法“看图猜位置”，豆包也安排上了！还是人人免费用那种

量子位· 2025-07-30 14:06

豆包APP视觉推理功能升级 - 核心功能升级为视觉推理，支持图片深度思考，通过开启深度思考模式可拍照或上传图片进行分析[4][5] - 分析过程结合以图搜图、图片分析工具（放大/裁剪/旋转）等多步骤，例如识别上海东方明珠年份为1999年左右[1][7][8] - 支持AI识别AI生成图片，通过放大细节识别右图西红柿蒂部不自然卷曲判定为AI生成[10][11][13] 实测场景表现 - 复杂图像处理：在熊猫群像中精准定位足球，采用"初步识别→放大区域→空间定位"三步骤[17][22][25] - 小众知识检索：识别鄂温克族口弦琴、云南翅果藤等冷门内容，结合图片检索+文字检索双重验证[29][34][35] - 学术与工作辅助：解答IMO数学题（经ChatGPT验证答案正确），一键提取财报数据并保持准确性[40][43][46][49] 技术模式创新 - 采用"边想边搜"动态推理机制，区别于传统AI"先搜后想"，支持多轮搜索与工具调用[50][52][53] - 实现图搜文能力，例如通过技术截图反向定位OpenAI论文原文及图表出处[62][64][65] - 多模态融合：Transformer架构统一处理文字/图像/音频，支撑工业检测、医疗分析等场景需求[72][75] 行业趋势 - 视觉推理成为大模型技术新门槛，OpenAI的o3/o4-mini推动多模态深度理解范式[68][69][70] - 技术成熟度与行业需求（工业/医疗）形成共振，促进行业竞速发展[71][74][76] - 豆包APP将高阶视觉推理功能免费开放，降低用户使用门槛[76][77]

视觉推理

多模态智能

Artificial Intelligence

Artificial Intelligence

豆包APP

o4 - mini

智谱再获10亿融资，推出会看“苏超”的开源新模型

观察者网· 2025-07-03 18:30

核心观点 - 智谱发布新一代通用视觉语言模型GLM-4.1V-Thinking，突破多模态推理能力，并在多项评测中超越更大参数模型 [1][7][10] - 公司获得10亿元战略融资，联合上海国资打造"算电模"一体化基础设施，建设万卡集群 [3][5] - 大模型商业化加速，API调用量同比增长30倍，价格大幅下调80%-90% [12][14] - Agent平台和智能硬件成为商业化落地重点方向 [15][18][19] 技术突破 - GLM-4.1V-Thinking支持图像/视频/文档输入，引入思维链推理机制和课程采样强化学习策略 [7] - 轻量版GLM-4.1V-9B-Thinking在28项评测中23项领先10B级模型，18项持平72B的Qwen-2.5-VL [7][8] - 模型实现动态视频理解能力，可完成足球解说、GUI操作等复杂任务 [9][10] - 90亿参数模型性能超越GPT-4o，接近720亿参数的Qwen-2.5-VL [10] 资本与生态 - 年内完成5轮融资，最新10亿元融资由浦东创投和张江集团联合投资 [3][5] - 与上海仪电、浦发集团共建"算电模"设施，利用绿电直连支撑万卡集群 [5] - "模力社区"已聚集近70家垂类大模型企业，25家完成安全备案 [3] 商业化进展 - API日均Token调用量同比增30倍，消耗金额增52% [12] - GLM-4-Plus等API价格降幅达90%，推动应用普及 [14] - 推出Agent聚合平台"应用空间"，启动数亿元专项扶持计划 [1][15] - 教育、医疗、企服等领域Agent落地周期有望提前 [17] 行业趋势 - 上海将发展AGI作为战略任务，重点突破算力、语料、基础模型 [6] - AI向自主智能体演进，可能催生全新商业模式 [17] - 端侧算力提升推动AI能力嵌入汽车、眼镜等智能硬件 [18][19]

Artificial Intelligence

Artificial Intelligence

GLM-4.1V-Thinking

大模型角力视觉推理，推理AI新时代来临

21世纪经济报道· 2025-07-03 13:11

多模态大模型技术突破 - 智谱发布并开源视觉语言大模型GLM-4.1V-Thinking，支持图像、视频、文档等多模态输入，具备复杂认知任务处理能力 [1] - 模型通过预训练构造视觉理解模型，监督微调提升推理能力，首次实现推理与视觉理解的有机结合 [1] - 2023年视觉推理成为行业竞争焦点，OpenAI、字节跳动、阿里等企业相继推出具备视觉推理能力的模型 [1] 视觉推理能力应用场景 - 多模态模型可解析PDF中的图片、图表、表格布局，理解页面结构，提升结构化信息提取效率 [3] - GLM-4.1V-Thinking支持图片理解（如看图买菜）、数学与科学推理（如几何题解）、视频时序分析与事件逻辑建模 [3] - 视觉推理能力可应用于GUI与网页智能体任务，实现交互操作，提升人机交互可控性 [4] - 模型能与Python数据分析、网络搜索等工具协同，解决复杂问题，提供多模态Agent体验 [4] 商业化落地路径 - 面向B端客户提供Agent应用空间，降低企业接入门槛，实现成熟、安全、可控的Agent能力 [6] - Agent类型包括任务型、交互型、自主型、协作型，目标为替代基础性、重复性工作以提升效率 [6] - 视觉推理与工具调用深度融合，加速教育、医疗、企服等垂直场景的Agent商业化进程 [6] - 生成式AI向"自主智能体"演进，可能催生全新商业模式 [7] 智能硬件与端侧部署 - 早期模型依赖云端推理，现通过端侧算力提升实现端云结合，部署于汽车、AI眼镜等硬件 [8] - 未来机器人、汽车、眼镜等设备均将接入AI能力，形成更广泛的应用生态 [9]

视觉推理

大模型

自主智能体

Artificial Intelligence

Artificial Intelligence

GLM-4.1V-Thinking

OpenAI深夜上线o3满血版和o4 mini - 依旧领先。

数字生命卡兹克· 2025-04-17 04:34

模型发布与更新 - OpenAI发布o3和o4-mini模型，取代原有的o1、o3-mini和o3-mini-high模型，ChatGPT Plus、Pro和Team用户可立即使用[1] - o3 Pro版本需等待几周后才提供[2] - o3和o4-mini是o系列最新视觉推理模型，首次实现思维链中图像思考能力[2] 模型性能提升 - o3在AIME数学赛准确率从裸模91.6%提升至调用Python后的95.2%，o4-mini从93.4%提升至98.7%[5] - 在跨学科PhD级科学题(GPQA Diamond)上，o3以83.3%领先o4-mini的81.4%[5] - 专家级综合测试(Humanity's Last Exam)中，o3从20.3%提升至24.9%，o4-mini从14.3%提升至17.7%[5] - 多模态能力显著提升：o3在MMMU数据集从77.6%提升至82.9%，MathVista从71.8%提升至87.5%，CharXiv-Reasoning从55.1%提升至75.4%[8] 工具与代码能力 - o3首次实现满血版工具使用能力[2] - 在SWE-Lancer自由职业软件工程任务中表现突出[11] - 浏览器任务能力接近DeepResearch水平[14] - 函数调用能力(Tau-bench)相比o1未明显提升[14] - o3准确率0.59高于o4-mini的0.36，但幻觉率0.33也高于o4-mini的0.48和o1的0.16[15][16] 定价策略 - o3定价$10/$40(输入/输出)，比o1的$15/$60便宜三分之一[17] - o4-mini保持$1.1/$4.4价格不变[17] - 所有新模型支持20万token上下文窗口和10万token最大输出[17] 视觉推理突破 - o3首次实现真正意义上的视觉推理能力，能像人类一样分析图像[18] - 成功识别北京门头沟109国道妙峰山段的具体位置[21][22][24] - 具备专业场景观察力潜力，可能改变安全监控、设计审稿、医疗影像等行业[30] 其他更新 - 开源AI编程工具Codex[31][33] - 视觉推理能力被视为范式级跃迁，可能带来行业变革[30][33]

视觉推理

Artificial Intelligence

Artificial Intelligence