Workflow
大模型角力视觉推理,推理AI新时代来临
21世纪经济报道·2025-07-03 13:11

多模态大模型技术突破 - 智谱发布并开源视觉语言大模型GLM-4.1V-Thinking,支持图像、视频、文档等多模态输入,具备复杂认知任务处理能力 [1] - 模型通过预训练构造视觉理解模型,监督微调提升推理能力,首次实现推理与视觉理解的有机结合 [1] - 2023年视觉推理成为行业竞争焦点,OpenAI、字节跳动、阿里等企业相继推出具备视觉推理能力的模型 [1] 视觉推理能力应用场景 - 多模态模型可解析PDF中的图片、图表、表格布局,理解页面结构,提升结构化信息提取效率 [3] - GLM-4.1V-Thinking支持图片理解(如看图买菜)、数学与科学推理(如几何题解)、视频时序分析与事件逻辑建模 [3] - 视觉推理能力可应用于GUI与网页智能体任务,实现交互操作,提升人机交互可控性 [4] - 模型能与Python数据分析、网络搜索等工具协同,解决复杂问题,提供多模态Agent体验 [4] 商业化落地路径 - 面向B端客户提供Agent应用空间,降低企业接入门槛,实现成熟、安全、可控的Agent能力 [6] - Agent类型包括任务型、交互型、自主型、协作型,目标为替代基础性、重复性工作以提升效率 [6] - 视觉推理与工具调用深度融合,加速教育、医疗、企服等垂直场景的Agent商业化进程 [6] - 生成式AI向"自主智能体"演进,可能催生全新商业模式 [7] 智能硬件与端侧部署 - 早期模型依赖云端推理,现通过端侧算力提升实现端云结合,部署于汽车、AI眼镜等硬件 [8] - 未来机器人、汽车、眼镜等设备均将接入AI能力,形成更广泛的应用生态 [9]