Workflow
视觉推理
icon
搜索文档
是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
机器之心· 2025-08-12 11:10
模型能力 - GLM-4.5V在「图寻」游戏全球积分赛中击败了99.99%的人类玩家,展现出超强视觉推理能力[9] - 模型能通过建筑风格、植被类型、道路标识等环境信息进行精准定位,甚至给出精确经纬度[20][21] - 在视觉错觉测试中,模型快速识别出穿蓝色上衣和白色裤子的人与穿紫色衣服的人[16] - 模型能准确读取模糊光线下的时钟时间,克服了AI系统读取时钟准确率仅38.7%的行业难题[38][41] - 对相似场景如慕田峪与八达岭长城,模型能根据墙体完整度和游客数量等细节精准区分[44][47] 技术架构 - GLM-4.5V采用106B总参数、12B激活参数的架构,支持64K多模态长上下文[127] - 视觉编码器采用AIMv2-Huge,通过三维卷积提升视频处理效率[127] - 引入二维旋转位置编码和双三次插值机制,增强高分辨率图像适应性[127] - 语言解码器采用3D-RoPE位置编码,提升多模态空间理解能力[127] - 训练采用三阶段策略:预训练、监督微调和强化学习,在41个公开视觉多模态榜单达到开源SOTA水平[128][129] 应用场景 - 在安防监控领域,模型能处理含视觉错觉和遮挡的图片,具备高准确率识别能力[19] - 前端开发中,模型可根据截图或视频复刻网页布局,实现可交互功能[87][91][93] - 教育领域能总结10分钟英文演讲视频,准确提取人物、地点和事件等关键信息[61][65] - 本地文档处理方面,模型能解读论文图表并理解数据逻辑关系[101][103] - 在景区寻人等场景,模型可精准识别特定特征的人员或宠物[112][113] 行业影响 - 模型开源策略推动行业从性能竞赛转向实用价值创造,提升开发者定制灵活性[132] - 在GUI Agent领域展现核心能力,如准确定位电商商品和PPT操作按钮[121][123] - 视觉推理能力覆盖复杂图表、多图长文本等实际任务,拓展多模态应用边界[10] - 相比闭源模型,开源方案提供更高透明度,促进AI技术在各行业落地[132] - 模型实战表现优于benchmark成绩,反映行业向真实场景效果评估的转变趋势[131]
豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。
数字生命卡兹克· 2025-08-07 09:05
豆包AI功能更新 - 豆包在手机场景下使用频率较高,尤其在未开启魔法上网时体验优于ChatGPT [1] - 新增深度思考模式下的视觉推理功能,可对上传图片展开思维链式分析 [4][5][21] - 视觉推理能力与OpenAI O3相当但完全免费,实现技术平权 [21][22] 视觉推理应用案例 - 识别ChinaJoy展会中暴雪展台泰瑞尔形象并准确反馈 [3][16] - 通过视频截图定位深圳旺吉利海鲜大排档,验证结果与大众点评商家动态一致 [24][27][29] - 解析德爷刷盘子的牛杂店细节,在文字信息不全时通过图像补充得出正确答案 [35][37] - 识别表情包出处,准确关联太太乐鸡精和双汇火腿肠广告形象 [39][41][43] - 对奥特曼形象(爱迪、盖亚)及《甄嬛传》名场面实现精确到集的识别 [45][49] 专业场景测试表现 - 正确解答公务员行测题中对称图形问题,完成复杂题型推理 [51][52] - 快速定位考眼力题目中的目标字母F [53] - 识别宗庆后全家福成员身份,包括宗馥莉等关键人物 [55] 技术局限性 - 存在手指数量误判等典型大模型幻觉问题 [57] - 对非公众人物照片识别准确率较低,曾将用户误判为电竞选手或导演 [62] 跨领域知识串联 - 通过电影《浪浪山小妖怪》场景关联黑神话中佛光寺地点,实现文化IP联动 [66][68][73] - 体现AI在知识整合方面的潜力,能快速串联分散线索形成认知闭环 [76][77]
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
量子位· 2025-07-30 14:06
豆包APP视觉推理功能升级 - 核心功能升级为视觉推理,支持图片深度思考,通过开启深度思考模式可拍照或上传图片进行分析[4][5] - 分析过程结合以图搜图、图片分析工具(放大/裁剪/旋转)等多步骤,例如识别上海东方明珠年份为1999年左右[1][7][8] - 支持AI识别AI生成图片,通过放大细节识别右图西红柿蒂部不自然卷曲判定为AI生成[10][11][13] 实测场景表现 - 复杂图像处理:在熊猫群像中精准定位足球,采用"初步识别→放大区域→空间定位"三步骤[17][22][25] - 小众知识检索:识别鄂温克族口弦琴、云南翅果藤等冷门内容,结合图片检索+文字检索双重验证[29][34][35] - 学术与工作辅助:解答IMO数学题(经ChatGPT验证答案正确),一键提取财报数据并保持准确性[40][43][46][49] 技术模式创新 - 采用"边想边搜"动态推理机制,区别于传统AI"先搜后想",支持多轮搜索与工具调用[50][52][53] - 实现图搜文能力,例如通过技术截图反向定位OpenAI论文原文及图表出处[62][64][65] - 多模态融合:Transformer架构统一处理文字/图像/音频,支撑工业检测、医疗分析等场景需求[72][75] 行业趋势 - 视觉推理成为大模型技术新门槛,OpenAI的o3/o4-mini推动多模态深度理解范式[68][69][70] - 技术成熟度与行业需求(工业/医疗)形成共振,促进行业竞速发展[71][74][76] - 豆包APP将高阶视觉推理功能免费开放,降低用户使用门槛[76][77]
智谱再获10亿融资,推出会看“苏超”的开源新模型
观察者网· 2025-07-03 18:30
核心观点 - 智谱发布新一代通用视觉语言模型GLM-4.1V-Thinking,突破多模态推理能力,并在多项评测中超越更大参数模型 [1][7][10] - 公司获得10亿元战略融资,联合上海国资打造"算电模"一体化基础设施,建设万卡集群 [3][5] - 大模型商业化加速,API调用量同比增长30倍,价格大幅下调80%-90% [12][14] - Agent平台和智能硬件成为商业化落地重点方向 [15][18][19] 技术突破 - GLM-4.1V-Thinking支持图像/视频/文档输入,引入思维链推理机制和课程采样强化学习策略 [7] - 轻量版GLM-4.1V-9B-Thinking在28项评测中23项领先10B级模型,18项持平72B的Qwen-2.5-VL [7][8] - 模型实现动态视频理解能力,可完成足球解说、GUI操作等复杂任务 [9][10] - 90亿参数模型性能超越GPT-4o,接近720亿参数的Qwen-2.5-VL [10] 资本与生态 - 年内完成5轮融资,最新10亿元融资由浦东创投和张江集团联合投资 [3][5] - 与上海仪电、浦发集团共建"算电模"设施,利用绿电直连支撑万卡集群 [5] - "模力社区"已聚集近70家垂类大模型企业,25家完成安全备案 [3] 商业化进展 - API日均Token调用量同比增30倍,消耗金额增52% [12] - GLM-4-Plus等API价格降幅达90%,推动应用普及 [14] - 推出Agent聚合平台"应用空间",启动数亿元专项扶持计划 [1][15] - 教育、医疗、企服等领域Agent落地周期有望提前 [17] 行业趋势 - 上海将发展AGI作为战略任务,重点突破算力、语料、基础模型 [6] - AI向自主智能体演进,可能催生全新商业模式 [17] - 端侧算力提升推动AI能力嵌入汽车、眼镜等智能硬件 [18][19]
大模型角力视觉推理,推理AI新时代来临
21世纪经济报道· 2025-07-03 13:11
多模态大模型技术突破 - 智谱发布并开源视觉语言大模型GLM-4.1V-Thinking,支持图像、视频、文档等多模态输入,具备复杂认知任务处理能力 [1] - 模型通过预训练构造视觉理解模型,监督微调提升推理能力,首次实现推理与视觉理解的有机结合 [1] - 2023年视觉推理成为行业竞争焦点,OpenAI、字节跳动、阿里等企业相继推出具备视觉推理能力的模型 [1] 视觉推理能力应用场景 - 多模态模型可解析PDF中的图片、图表、表格布局,理解页面结构,提升结构化信息提取效率 [3] - GLM-4.1V-Thinking支持图片理解(如看图买菜)、数学与科学推理(如几何题解)、视频时序分析与事件逻辑建模 [3] - 视觉推理能力可应用于GUI与网页智能体任务,实现交互操作,提升人机交互可控性 [4] - 模型能与Python数据分析、网络搜索等工具协同,解决复杂问题,提供多模态Agent体验 [4] 商业化落地路径 - 面向B端客户提供Agent应用空间,降低企业接入门槛,实现成熟、安全、可控的Agent能力 [6] - Agent类型包括任务型、交互型、自主型、协作型,目标为替代基础性、重复性工作以提升效率 [6] - 视觉推理与工具调用深度融合,加速教育、医疗、企服等垂直场景的Agent商业化进程 [6] - 生成式AI向"自主智能体"演进,可能催生全新商业模式 [7] 智能硬件与端侧部署 - 早期模型依赖云端推理,现通过端侧算力提升实现端云结合,部署于汽车、AI眼镜等硬件 [8] - 未来机器人、汽车、眼镜等设备均将接入AI能力,形成更广泛的应用生态 [9]
OpenAI深夜上线o3满血版和o4 mini - 依旧领先。
数字生命卡兹克· 2025-04-17 04:34
模型发布与更新 - OpenAI发布o3和o4-mini模型,取代原有的o1、o3-mini和o3-mini-high模型,ChatGPT Plus、Pro和Team用户可立即使用[1] - o3 Pro版本需等待几周后才提供[2] - o3和o4-mini是o系列最新视觉推理模型,首次实现思维链中图像思考能力[2] 模型性能提升 - o3在AIME数学赛准确率从裸模91.6%提升至调用Python后的95.2%,o4-mini从93.4%提升至98.7%[5] - 在跨学科PhD级科学题(GPQA Diamond)上,o3以83.3%领先o4-mini的81.4%[5] - 专家级综合测试(Humanity's Last Exam)中,o3从20.3%提升至24.9%,o4-mini从14.3%提升至17.7%[5] - 多模态能力显著提升:o3在MMMU数据集从77.6%提升至82.9%,MathVista从71.8%提升至87.5%,CharXiv-Reasoning从55.1%提升至75.4%[8] 工具与代码能力 - o3首次实现满血版工具使用能力[2] - 在SWE-Lancer自由职业软件工程任务中表现突出[11] - 浏览器任务能力接近DeepResearch水平[14] - 函数调用能力(Tau-bench)相比o1未明显提升[14] - o3准确率0.59高于o4-mini的0.36,但幻觉率0.33也高于o4-mini的0.48和o1的0.16[15][16] 定价策略 - o3定价$10/$40(输入/输出),比o1的$15/$60便宜三分之一[17] - o4-mini保持$1.1/$4.4价格不变[17] - 所有新模型支持20万token上下文窗口和10万token最大输出[17] 视觉推理突破 - o3首次实现真正意义上的视觉推理能力,能像人类一样分析图像[18] - 成功识别北京门头沟109国道妙峰山段的具体位置[21][22][24] - 具备专业场景观察力潜力,可能改变安全监控、设计审稿、医疗影像等行业[30] 其他更新 - 开源AI编程工具Codex[31][33] - 视觉推理能力被视为范式级跃迁,可能带来行业变革[30][33]