Workflow
多模态推理
icon
搜索文档
4o-mini华人领队也离职了,这次不怪小扎
量子位· 2025-08-19 09:17
核心人才流动 - OpenAI核心研究员Kevin Lu离职 加入Thinking Machine Lab [1][2][3] - Kevin Lu曾领导OpenAI 4o-mini项目开发 并参与o1-mini和o3模型研发 [7][9] - Thinking Machine Lab已集结多位OpenAI前核心成员 包括John Schulman、Barrett Zoph等 [4][22] 技术研究方向 - Kevin Lu专长强化学习和小模型 其论文《决策Transformer》引用量达2254次 [10][11] - 研究观点认为互联网数据比Transformer架构更重要 强调序列数据预测价值 [13][14] - 提出强化学习未来方向在于新数据源和奖励机制创新 [15] 初创公司动态 - Thinking Machine Lab完成20亿美元种子轮融资 估值达120亿美元 [17][19] - 公司由OpenAI前CTO Mira Murati创立 团队覆盖AI主要研究方向 [18][22] - 在硅谷人才争夺中保持团队稳定 拒绝10亿美元薪酬挖角 [20] 产品与技术成果 - 4o-mini为多模态推理小模型 支持图文输入和长上下文 具有高效低成本特点 [7] - Kevin Lu参与开发的o1-mini和o3模型体现其小模型专长 [9] - Thinking Machine Lab尚未公开技术成果 引发行业期待 [21]
全球多模态推理新标杆 智谱视觉推理模型GLM-4.5V正式上线并开源
证券日报网· 2025-08-12 16:46
产品发布 - 公司推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V 总参数106B 激活参数12B 并在魔搭社区与HuggingFace开源[1] - 模型基于新一代旗舰文本基座模型GLM-4.5-Air 延续GLM-4.1V-Thinking技术路线[2] - 在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 涵盖图像 视频 文档理解及GUI Agent等任务[2] 性能表现 - 在通用VQA任务中 MMBench v1.1得分88.2 MMBench v1.1中文版得分88.3 MMStar得分75.3 BLINK验证集得分65.3[3] - 在STEM领域 MMMU验证集得分75.4 MMMU Pro得分65.2 MathVista得分84.6 MathVision得分65.6[3] - 在GUI Agent任务中 OSWorld得分35.8 AndroidWorld得分57.0 WebVoyagerSom得分84.4[3] - 视频理解方面 VideoMME无字幕版得分74.6 有字幕版得分80.7 MMVU得分68.7 VideoMMMU得分72.4[3] 技术特性 - 模型具备全场景视觉推理能力 包括图像推理 视频理解 GUI任务 复杂图表与长文档解析及Grounding能力[5] - 新增思考模式开关 用户可选择快速响应或深度推理[5] - 支持64K多模态长上下文 通过三维卷积提升视频处理效率 采用双三次插值机制增强高分辨率图像处理能力[6] - 引入三维旋转位置编码3D-RoPE 强化多模态信息的三维空间关系感知能力[6] - 采用三阶段训练策略 预训练阶段使用大规模图文交错多模态语料 监督微调阶段引入显式思维链格式训练 强化学习阶段采用全领域多模态课程[6] 商业化应用 - API调用价格低至输入2元每百万tokens 输出6元每百万tokens 为企业与开发者提供高性价比多模态AI解决方案[5] - 模型在保持高精度的同时兼顾推理速度与部署成本[5] 行业地位 - 多模态推理被视为通向通用人工智能的关键能力 视觉-语言模型是实现多模态推理的核心基础[7] - 公司7月发布的GLM-4.1V-9B-Thinking模型曾登上HuggingFace Trending榜首 累计获得超过13万次下载[7]
智谱推出全球100B级最强开源多模态模型GLM-4.5V:获41个榜单SOTA
IPO早知道· 2025-08-12 09:52
智谱GLM-4.5V模型发布 - 公司于8月11日正式推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B),并在魔搭社区与Hugging Face开源 [3] - 该模型基于新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking技术路线,在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [4] - 模型具备全场景视觉推理能力,包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力 [5] 技术架构与性能表现 - 模型由视觉编码器、MLP适配器和语言解码器三部分组成,支持64K多模态长上下文,采用三维卷积提升视频处理效率 [6] - 引入双三次插值机制增强高分辨率图像处理能力,采用三维旋转位置编码(3D-RoPE)强化多模态信息的三维空间关系感知 [6] - 在多项基准测试中表现优异,如MMBench v1.1得分88.2、MMMU (val)得分75.4、MathVista得分84.6、OCRBench得分86.5等 [5] 训练方法与开发支持 - 采用三阶段训练策略:预训练阶段强化复杂图文及视频处理能力,SFT阶段引入显式"思维链"格式训练样本,RL阶段通过多领域奖励系统进行全面优化 [8] - 同步开源桌面助手应用,可实时截屏、录屏获取屏幕信息,处理多种视觉推理任务 [8] - 公司希望通过模型开源和API服务赋能开发者,基于多模态基座模型开发创新应用 [9] 行业影响与定位 - 多模态推理被视为通向AGI的关键能力之一,视觉-语言模型(VLM)是实现多模态推理的核心基础 [3] - 此前7月发布的GLM-4.1V-9B-Thinking模型曾登上Hugging Face Trending榜首,累计获得超过13万次下载 [3] - 本次发布标志着公司在通向通用人工智能(AGI)道路上的又一探索性成果 [3]
智谱宣布开源视觉推理模型GLM-4.5V正式上线并开源
凤凰网· 2025-08-11 22:14
公司动态 - 智谱AI推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V 总参数106B 激活参数12B [1] - 模型同步在魔搭社区与Hugging Face开源 API调用价格低至输入2元/M tokens 输出6元/M tokens [1] - GLM-4.5V基于新一代旗舰文本基座模型GLM-4.5-Air 延续GLM-4.1V-Thinking技术路线 [1] 技术性能 - 在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [1] - 涵盖图像 视频 文档理解以及GUI Agent等常见任务 [1] - 能够根据用户提问精准识别 分析 定位目标物体并输出坐标框 [1] 行业意义 - 多模态推理被视为通向通用人工智能AGI的关键能力之一 [1] - 视觉-语言模型VLM是实现多模态推理的核心基础 [1]
gpt5
小熊跑的快· 2025-08-08 06:41
GPT-5核心升级 - 新一代AI系统在智力层面实现重大飞跃,在编码、数学、写作、健康、视觉感知等领域达到最先进性能 [1] - 采用统一系统架构,能动态调整响应速度与思考深度以提供专家级答案 [1] - 模型架构未出现代际突破,验证ASIC硬件路径正确性,利好推理成本下降 [1] 技术架构创新 - 引入三级模型体系:基础智能模型处理常规问题,GPT-5思维模块解决复杂问题,实时路由器动态分配任务 [2] - 路由器通过用户切换行为、响应偏好等真实信号持续优化,未来计划整合为单一模型 [2] - 达到使用限制后自动切换至GPT-5 mini模型维持服务 [2] 核心能力提升 编码性能 - 复杂前端生成与大型代码库调试能力显著提升,单提示即可生成响应式网站/应用/游戏 [3] - 设计审美优化,对排版、间距等视觉元素理解更精准 [3] 健康应用 - HealthBench评估得分显著超越前代,在真实医疗场景中表现更可靠 [4] - 新增主动风险提示功能,能根据用户背景知识提供个性化健康建议 [4] - 强调AI作为医疗辅助工具定位,不替代专业医疗人员 [4] 多模态与事实性 - 视觉/视频/空间推理能力全面提升,图表解析准确率大幅提高 [11] - 启用网络搜索时,事实错误率较GPT-4o降低45%,思考模式下比OpenAI o3降低80% [11] - LongFact和FActScore基准测试显示"GPT-5思维"幻觉率下降6倍 [11] 响应诚实度 - 对无法完成任务的情境识别准确率从o3的86.7%提升至91% [13] - 在真实对话场景中欺骗率从4.8%降至2.1% [13] 商业化部署 - 即时向Plus/Pro/Team/Free用户开放,企业/教育版一周内上线 [14] - Pro用户可无限制访问GPT-5 Pro版本,团队用户可设为默认工作模型 [14] - 免费用户达到限额后自动降级至GPT-5 mini模型 [14]
量子位智库:2025上半年AI核心成果及趋势报告
搜狐财经· 2025-08-03 07:06
应用趋势 - 通用类Agent深度整合工具使用,可完成多样深度研究任务,视觉操作为核心的CUA推向市场,两者正走向融合 [1][11] - 垂类Agent在旅行、设计等场景涌现,自然语言操控成为工作流一部分,例如飞猪推出"问一问"功能实现多Agent协同 [1][15] - AI编程成核心垂类,头部应用如Cursor年收入突破5亿美元,产品演化经历代码补全、单文件编辑、多文件编辑到端到端交付四阶段 [16][17] - 模型上下文协议MCP受关注但未规模化落地,可为大模型提供标准化接口,目前支持20-30个调用且生态技术侧尚未成熟 [19][21] 模型趋势 - 推理能力显著提升,数理类问题准确率+7%,代码类竞赛排名+23%,GPQA钻石级问题+43% [24] - 大模型走向Agentic,工具使用能力增强,Humanity's Last Exam榜单表现+81% [26] - 多模态推理融合视觉与文本,图像生成能力全面提升,可遵循16个细节指令并实现多轮连续编辑 [27][29] - 小模型加速普及,智能密度提高,模型评估向动态、实用任务方向发展 [1][25] 技术趋势 - 训练资源向后训练和强化学习倾斜,强化学习重要性提升,未来算力消耗或超预训练 [1][10] - 多智能体系统成前沿范式,在线学习成核心突破方向,Transformer架构快速迭代并涌现混合架构 [1][27] - 代码验证成AI编程自动化提升关键方向,系统提示词对用户体验影响显著 [1][18] 行业趋势 - 头部玩家模型层差距缩小,OpenAI领先优势弱化,谷歌和xAI迎头赶上 [2][8] - 中美大模型竞争差距缩小,中国在多模态等领域表现突出 [2][8] - AI编程成必争之地,海内外头部玩家密集布局,国内大模型创业公司路线分化 [2][16]
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
量子位· 2025-07-27 19:57
行业趋势与市场现状 - 推理模型和具身智能成为2024年WAIC最受关注的领域,分别代表当前AI话语权和下一代有形技术[1] - 行业进入推理时代后,多模态模型涌现,推理能力成为焦点,开源成为厂商和用户首选考量[10] - 模型评估标准从单一性能指标转向综合考察效率、成本、部署友好性等维度[11] Step 3核心特性 - 总参数321B的MoE架构,视觉编码器5B参数+语言模型316B参数,激活参数38B[5][17] - 多模态能力突出:在MMMU等榜单取得开源多模态推理模型新SOTA,支持跨领域复杂知识理解与视觉信息交叉分析[6][19] - 成本效率优势:推理解码成本为DeepSeek的1/3,国产芯片推理效率达DeepSeek-R1的300%[8] - 开源策略:7月31日开源,打破"强模型不开源"局面,GitHub未发布已获107星[24][25][26] 技术创新与架构设计 - AFD分布式推理系统:将Attention与FNN拆解至独立子系统,解码效率优于DeepSeek EP方案[32][34] - MFA注意力机制:硬件感知低秩设计,KV缓存小于DeepSeek-V3,算术强度128平衡内存与算力[36][37][39] - 系统协同优化:32张Hopper GPU实现4039 tokens/GPU/s吞吐量,对比DeepSeek-V3(128张GPU)的2324 tokens/GPU/s[41] 商业化落地进展 - 终端智能Agent覆盖汽车、手机、IoT等领域: - 智能座舱实现人机共驾,吉利银河M9首发搭载端到端语音大模型[64][66] - 国内Top10手机厂商过半接入多模态能力,OPPO/荣耀/中兴旗舰机型已部署[69] - 2025年预计收入近10亿人民币,形成清晰商业化路径[74] 产业链协同生态 - 国产芯片适配:完整支持华为昇腾、沐曦、天数智芯等国产芯片运行[51][52] - 发起"模芯生态创新联盟":联合10家芯片及Infra厂商构建技术链路,成员包括华为昇腾、寒武纪等[54][55] - 模型-硬件协同设计:通过架构创新降低API依赖,推动可持续成本优化[50][58] 产品定位与市场策略 - "多开好省"四字诀:多模态、开源、高性能、低成本,重新定义推理模型价值标准[13][45] - 差异化竞争:避开参数竞赛,聚焦终端部署与产业落地,形成收入规模[73][76] - 长期主义定位:通过技术工程化能力构建产业线长跑优势,区别于短期SOTA追逐者[77][79]
Zebra-CoT:开创性视觉思维链数据集问世,多模态推理准确率提升13%
具身智能之心· 2025-07-24 17:53
背景 - 人类解决复杂问题时借助图表、草图等视觉辅助工具,训练多模态模型实现类似能力面临两大挑战:现有视觉思维链性能欠佳且缺乏高质量训练数据[3] - 前沿多模态模型在视觉思维链方面主要通过代理管道利用外部工具实现视觉编程,但具备交替生成文本和图像能力的模型存在生成无效推理辅助工具或缺乏多模态生成训练的问题[3] - 专门模型在特定场景展示视觉思维链能力,但通用高质量视觉思维链基础模型缺失,主因缺乏大规模多样化交替文本-图像推理训练数据集[3] 核心创新点 - 提出Zebra-CoT数据集,包含182,384个逻辑连贯的交替文本-图像推理轨迹样本,覆盖科学问题、2D/3D视觉推理、视觉逻辑与策略游戏四大类别[6] - 突破现有数据集单一任务限制和语义对齐弱的问题,按高质量文本推理数据集标准构建[6] 数据集构建 覆盖范围 - 科学推理:几何、物理、化学、算法问题等[9] - 2D视觉推理:视觉搜索、视觉拼图等[9] - 3D视觉推理:3D多跳目标计数、具身思维链、机器人规划[9] - 视觉逻辑与策略游戏:国际象棋、迷宫、俄罗斯方块等[9] 数据来源与处理 - 真实世界数据:从数学、物理、编程等领域在线资源获取并清洗含多模态的原始推理轨迹[10] - 合成数据:通过生成图像结合推理模板创建示例,利用视觉语言模型填充模板占位符增强推理轨迹多样性[10] 规模与分布 - 总量182,384样本,视觉逻辑与策略游戏占比最高达36.7%,2D视觉推理占28.5%,3D视觉推理占21.7%,科学推理占13.2%[12] - 子类别中国际象棋样本量最大(20,483,占11.2%),迷宫(20,000,11.0%)和俄罗斯方块(10,000,5.5%)次之[13] 模型微调与性能 - Anole-Zebra-CoT模型在分布内测试集准确率从4.2%提升至16.9%,相对提升4倍[14] - 在7个视觉推理基准测试中平均提升4.9%,视觉逻辑基准最高提升13.1%[14] - Bagel-Zebra-CoT模型微调后实现原生无法生成的交替文本-图像输出能力[15] 局限 - 合成数据依赖模板生成,文本推理多样性和表达性可能受限[18] - 部分子任务样本量小(几何0.6%、竞争编程0.7%),影响模型专项能力[18] - 模型在部分子任务上性能提升不显著甚至下降(如EMMA物理子任务)[18]
美团提出多模态推理新范式:RL+SFT非传统顺序组合突破传统训练瓶颈
量子位· 2025-07-21 12:23
多模态推理框架Metis-RISE - 美团研究者提出Metis-RISE混合训练框架,通过非传统顺序结合强化学习(RL)和监督微调(SFT)提升多模态大语言模型(MLLMs)推理能力 [1][2] - 框架核心策略:先通过RL激励模型探索潜在推理路径,再通过SFT针对性补足能力短板,最终生成7B和72B参数模型 [3] - 72B参数模型在OpenCompass多模态推理榜单平均得分56.6,整体排名第四,验证框架可扩展性和有效性 [3][13] 技术突破与创新 - 突破传统训练范式:省略冷启动SFT阶段,直接采用改进版GRPO算法进行RL训练,通过非对称裁剪和动态数据过滤避免无效探索 [4][6][7] - 两阶段训练机制: 1) RL阶段取消KL散度约束,采用token级策略损失和软过长惩罚,增强训练稳定性 [6] 2) SFT阶段通过自我蒸馏推理轨迹和专家增强知识注入,强化模型薄弱环节 [8] 模型性能表现 - 7B模型在≤10B参数类别中平均得分46.4,超越同类最优VLAA-Thinker-7B(42.5)和InternVL3-8B(41.4) [12] - 72B模型平均得分56.6,优于>10B参数类别的InternVL3-78B(51.0)和Qwen2.5-VL-72B(50.3),并超越部分专有模型如ChatGPT-4o(54.8) [13] - 消融实验显示RL阶段使7B模型平均分提升4.8(39.2→44.0),混合SFT进一步带来2.4分增益 [15][16] 技术细节与优化 - RL阶段准确率奖励与响应长度呈正相关,表明模型思维链逐渐清晰 [17] - SFT数据策略: - 对推理不一致的prompt采用自我蒸馏轨迹(正确性得分0-1) [8] - 对完全失败的prompt(得分0)引入外部专家生成解决方案 [8] - 基于Qwen2.5-VL系列开发,采用VLMEvalKit和OpenCompass进行基准测试 [9][10]
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
量子位· 2025-07-11 12:00
多模态推理算法PAPO的核心创新 - 提出专注于多模态推理的强化学习算法PAPO,通过隐式感知损失设计解决感知与推理脱节问题 [1][3] - 系统错误分析显示67%多模态推理错误源于视觉感知问题,而非逻辑推理能力 [6][7][9] - 在几何推理任务中,PAPO准确识别关键视觉特征(如30度角对应边),传统GRPO则关联错误 [14][15] 技术实现细节 - 创新隐式感知损失函数:要求模型在原始/损坏图像上输出显著差异分布 [18] - 采用KL散度最大化和感知信息增益比设计,目标函数J_PAPO=J_GRPO+γ·KL_prcp [19][20][21] - 随机遮盖补丁策略优于语义感知遮盖,遮盖比例0.6-0.8时效果最佳 [24][38] 性能提升表现 - 8个基准测试显示整体平均提升4.4%,高视觉依赖任务提升8.0%,感知错误减少30.5% [26] - 3B模型在LogicVista任务从38.14%提升至39.84%,7B模型在Counting任务从73.94%跃升至82.38% [26] - 训练动态更优:25步即显现提升,避免奖励不稳定问题,改进效果持续增强 [28][29] 技术优化与挑战 - 双重熵损失设计有效防止KL_prcp Hacking现象(γ>0.02时易发生崩溃) [45][46][47] - 与移除ReferenceKL约束的组合实现协同效应,7B模型在高视觉任务再提升7.96% [33][34] - 视觉依赖性分级验证:高依赖任务改进最显著(近8%),低依赖任务仍保持稳定提升 [53][54] 实际应用案例 - 几何计算:PAPO准确识别三角形短边关系(GRPO错误关联60度角边) [14][57] - 物体计数:PAPO正确区分并统计多类物体(GRPO感知错误) [8][64] - 多图推理:PAPO精准识别子图特征并完成逻辑推导(GRPO视觉推理错误) [63] 资源开放 - 模型、数据及代码已在GitHub、HuggingFace等平台开源 [5][65]