Workflow
多模态大模型
icon
搜索文档
Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品
量子位· 2025-04-28 11:43
多模态大模型几何解题能力评估 核心观点 - 首个从几何原理视角评估多模态大模型几何解题能力的双语基准GeoSense发布,包含5层知识架构和1789道精细标注的几何问题 [1][6][7] - 创新性提出GPI(几何原理识别)和GPA(几何原理应用)指标,弥补传统评测仅关注答案正确性的不足 [11][12] - 评测显示Gemini-2.0-Pro-Flash综合表现最佳,开源模型中Qwen-VL系列领先 [25][28][29] 评测体系设计 - **知识架构**:覆盖148个几何原理(65定义/47定理/36公式),分平面几何与立体几何5层级 [6] - **数据集**:1789道双语问题标注5556个几何原理对应关系,23位专业人员参与质量把控 [7][9] - **评估指标**: - GPI量化模型识别必要几何原理的能力(正确识别比例) [15][16] - GPA通过F1 score衡量原理与视觉元素的匹配应用 [18][20] - ACC保留传统答案正确性评分 [22] 模型表现分析 - **头部模型**: - Gemini-2.0-Pro-Flash三项指标平均分65.3,公式类GPI达87.4 [26][28] - Qwen2.5-VL-72B开源最优(AVG 60.1),较7B版本提升17% [26][35] - **短板领域**: - 平面几何理解普遍薄弱,如Claude3.5-Sonnet在TMPF原理的GPA仅32.5 [32] - 定义/定理类表现显著弱于公式类(如InternVL2.5-78B定义类ACC仅29.8) [46][48] - **规模效应**:模型参数量与表现正相关(Qwen2.5-VL从7B到72B提升8.8分) [35] 关键发现 - **能力瓶颈**:几何原理识别(GPI)是主要限制因素,GPI每提升5%可带动ACC提高7.7% [37][39] - **复杂问题挑战**:所需原理数量增加时,闭源模型GPI下降更显著(如GPT-4o复杂问题ACC仅51.7) [41][42] - **计算优势**:模型在公式类表现突出(Gemini-2.0公式类GPI 87.4 vs 定义类64.2) [26][47]
李彦宏:DeepSeek不是万能,最大问题是慢和贵,大多数大模型速度比DeepSeek满血版更快,价格更低【附多模态大模型行业市场分析】
搜狐财经· 2025-04-27 14:28
(图片来源:摄图网) 4月25日,百度创始人李彦宏在reate2025百度AI开发者大会上发表了题为《模型的世界 应用的天下》的演 讲。他在演讲中称 "DeepSeek不是万能的",并指出了DeepSeek目前存在的一些不足之处。他认为,多模态 将是未来基础模型的标配据。 今年年初,DeepSeek的横空出世宛如一颗重磅炸弹,在AI领域激起千层浪。它凭借低成本的AI模型,迅速 在全球范围内引发轰动。1月27日,DeepSeek应用如同脱缰野马,登顶15个国家和地区的苹果应用商店免费 APP下载排行榜,在美国市场力压ChatGPT、Threads等一众知名产品,荣登美区苹果App Store免费榜榜首, 成为史上最快达成日活跃用户数突破3000万大关的应用,亦是首个同期在中国和美区苹果App Store占据榜 首的中国应用。 李彦宏直言"DeepSeek不是万能的"。他指出,DeepSeek目前仅能处理文本,对于图片、音频、视频等多媒 体内容的理解和生成却无能为力。而我们的很多百度智能云客户,都需要这种多模理解和生成能力。 李彦宏指出,幻觉率较高也是DeepSeek的一大软肋。在很多场合不能放心使用,如果在电商 ...
多模态大模型改造人脸防伪检测,厦大腾讯优图等研究入选CVPR 2025
量子位· 2025-04-21 21:23
skjack 投稿 量子位 | 公众号 QbitAI 近年来,人脸合成技术在快速发展,相关检测任务也逐渐从"看得出来"向"说明白为什么"演进。除了判断一张脸是真还是假,更需要模型能"说 出个所以然"。 在CVPR 2025的工作《Towards General Visual-Linguistic Face Forgery Detection》中,研究团队尝试从 视觉+语言的多模态视角 来改 进伪造检测方法。 但问题也随之而来—— 数据从哪里来? 多模态任务的关键是高质量标注数据。而伪造检测任务相比于传统的图文匹配,难度在于: 目前社区主流的做法大概有两类: 但实验发现,两种方式都存在较明显的问题,尤其在高质量伪造图像中,容易出现"看花眼"的情况——模型或者标注人可能会误判没有问题的 区域,产生所谓的"语言幻觉"。 本文提出了一种简单有效的训练范式,并围绕数据标注问题,构建了一个高质量的文本生成流程。 为什么要引入语言模态? 在伪造检测任务中加入语言,有两个直接的好处: 因此,团队提出了如图所示的一个新的多模态训练框架: △ 图1:视觉语言伪造检测训练范式 该方法的关键在于:不再直接用图像做二分类判断,而是 先 ...
蚂蚁集团副总裁、前基础大模型负责人徐鹏离职
证券时报· 2025-04-14 19:01
高管变动与AI部门调整 - 蚂蚁集团副总裁、前基础大模型负责人徐鹏已离职 徐鹏曾担任AI创新研发与应用部门NextEvo负责人 负责蚂蚁百灵大模型研发工作 [1][2] - NextEvo为蚂蚁内部AI精英部门 2023年在国际期刊和会议发表超30篇论文 开源了DLRover和GLake项目 [2] - 徐鹏拥有11年谷歌工作经历 曾负责谷歌翻译核心技术研发 并参与广告系统算法开发 [2] 组织架构与战略调整 - 蚂蚁集团成立数字支付事业群和支付宝事业群 实行轮值总裁制 首任任期至2025年6月30日 [3] - 新架构旨在加速双飞轮和AI战略推进 数字支付事业群聚焦创新支付产品 支付宝事业群专注用户增长与商业化 [3] - 2025年3月1日起 韩歆毅将接任CEO 井贤栋将更专注于董事长职责 [3] AI技术研发进展 - 蚂蚁集团正在研发百灵多模态大模型 已进入内测阶段 该模型可同时处理文字、图像、声音等信息 [2] - NextEvo部门承担蚂蚁AI所有核心技术研发 包括百灵大模型系列产品 [2]
夸克“AI解题大师”:这哪里是解题,分明是AI家教空降!
硬AI· 2025-04-02 18:12
产品功能 - 夸克"AI解题大师"提供深度解题功能,通过多模态大模型实现秒级精准识别手写体与印刷体题目[6] - 采用分层递进式解析模式,包含考点分析、公式推导、图文解释及知识点拓展,形成"讲透一道题,学会一类题"的教学闭环[9] - 配备AI对话追问功能,支持实时互动答疑,通过通俗化案例解析复杂概念[12][13] - 提供类似题推荐系统,构建"识别-解析-练习"的完整学习路径[13] 技术架构 - 核心采用阿里自研推理及多模态大模型+夸克"灵知"学习大模型,具备教育领域专业预训练经验[14] - 基于"AI超级框"平台实现多智能体协同,包括扫描智能体、题库智能体、对话智能体等模块化分工[14] - 整合夸克多年积累的海量全学科题库资源,覆盖K12至职业资格考试全学段[15][16] 市场定位 - 突破传统AI搜题工具局限,从答案搬运转向思维训练,重新定义AI学习产品价值[17] - 目标用户覆盖K12学生、大学生、职场人士等全年龄段学习需求[16] - 推动行业从效率工具向"AI家教"形态进化,确立深度思考与启发式教学新标准[17] 战略布局 - 作为阿里大模型在教育场景的旗舰应用,体现公司AI平台化战略的前瞻部署[14] - 通过"AI超级框+学科Agent"架构展示技术整合能力,为后续功能扩展预留接口[14] - 预示公司将围绕"AI家教"概念持续迭代,可能延伸至更广的教育科技领域[18]
Hi 机器人丨“大脑”“小脑”再进化,人形机器人又迎新突破
搜狐财经· 2025-03-26 22:53
人形机器人技术突破 - 人形机器人进化速度超预期,涵盖运动控制、流水线作业、家庭照护等多领域 [3] - 全球首个实现侧空翻的电驱机器人,0.5秒内完成横向能量爆发,单侧腿部瞬时压力达体重4.5倍 [5] - 机器人动作能力显著提升,可完成丝滑街舞、鲤鱼打挺、格斗武术等复杂动作,依赖动力系统、智能算法、感知技术集成 [7] 智能系统升级 - 最新机型融合运动智能、作业智能、交互智能,具备骑车购物、缝补衣物、拟人化交流等功能 [9] - 多模态大模型实现毫秒级反应速度,突破传统文本生成语音的延迟瓶颈 [11] - 工程优化后模型时延降至毫秒级,直接实现图像/语音到语音的转换,省略中间计算过程 [13] 行业应用场景拓展 - 机器人从工业场景向家庭场景渗透,提供陪伴、照护等生活服务 [3][9] - 技术迭代推动机器人执行能力多样化,包括舞蹈表演、家务协助等高复杂度任务 [7][9]
阶跃星辰 Tech Fellow 段楠:Step-Video 系列模型的关键技术解读
AI科技大本营· 2025-03-21 14:35
2025全球机器学习技术大会 - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行 设有12大技术专题 汇聚50+位院士 IEEE Fellow等顶尖专家 [2] - 专题涵盖智能体 联邦学习 多模态大模型 强化学习等前沿议题 [2] - 大会设置AI企业创新展区 展示产业链技术产品方案 展位所剩不多 [9][11] 段楠博士技术分享 - 阶跃星辰Tech Fellow段楠博士将在「多模态大模型前沿」专场分享《视频生成基础模型进展 挑战和未来》 [2] - 段楠博士曾任微软亚洲研究院资深首席研究员12年 专注自然语言处理 多模态基础模型等领域 [4] - 分享将围绕开源Step-Video系列模型 剖析文生视频 图生视频等任务的最新进展 [6] 阶跃星辰开源模型 - Step-Video-T2V为300亿参数视频生成模型 支持8-10秒540P视频 覆盖11类内容生成需求 中英双语输入 [5][6] - Step-Audio是首款工业级开源语音交互模型 支持多语种实时高保真生成 适用于客服 翻译等场景 [5][6] - 两款模型在多项指标上超越现有开源模型 已应用于自动驾驶 影视创作等领域 [6] 行业影响与参与 - 大会为科研学者 技术专家提供前沿洞见 推动AI技术变革与应用落地 [8] - 活动旨在促进AI生态融合 探索产业升级路径 拓展应用场景 [9][11]
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
量子位· 2025-03-19 06:20
文章核心观点 - 东南大学、香港中文大学、蚂蚁集团等研究人员提出的LMM - R1框架,通过创新两阶段训练策略解决多模态领域难题,提升多模态大模型推理能力,且成本低效果好,有强大应用潜力 [2][3][4] 分组1:LMM - R1框架背景与优势 - 多模态大模型在深度数学推理任务上表现不佳,小型模型更明显 [1] - LMM - R1框架创造性引入规则化奖励函数机制,仅需240元GPU成本,将多模态模型推理能力提升至工业级应用标准 [4] - 经LMM - R1框架强化的QwenVL - 2.5 - 3B模型,在推箱子等任务中超越100B +参数量产品级大模型 [4] 分组2:从文本到多模态推理能力迁移挑战及解决 - 将基于规则奖励的强化学习扩展到多模态领域面临数据限制和基础推理能力薄弱两大挑战 [5][6] - LMM - R1框架通过创新两阶段训练策略解决上述问题 [5] 分组3:LMM - R1两阶段强化学习策略 - 第一阶段基础推理增强(FRE),利用纯文本推理数据增强模型基础推理能力,避开多模态数据限制 [7] - 第二阶段多模态泛化训练(MGT),将第一阶段推理能力泛化到多模态领域,避免依赖昂贵多模态训练数据 [9] 分组4:实验结果 - 以Qwen2.5 - VL - Instruct - 3B为基准模型,经LMM - R1框架训练后在几何推理、感知 - 推理平衡、智能体相关领域基准测试上显著提升 [10] - 在纯文本和多模态基准测试上平均提升约4.5% - 4.8%,推理密集型任务效果明显,避免推理能力退化问题 [11] - 在推箱子任务中,经LMM - R1框架强化后的模型仅通过初始画面即可完成完整动作序列规划 [12] 分组5:LMM - R1框架应用潜力与发展 - 3B规模小模型使用LMM - R1两阶段RL训练可极大增强推理能力,框架有强大应用潜力 [13] - 框架基于OpenRLHF实现完全自主研发,构建高效稳定训练体系,降低资源消耗 [13] - 项目开源后获学术界关注,技术方案被多个知名开源项目采纳,在GitHub获超500 +星标关注 [13] - 团队将持续深耕多模态模型领域,推动技术落地应用,与开源社区共建多模态强化学习框架 [14]
【海康威视(002415.SZ)】宏观信心修复,大模型规模化落地变现开启——跟踪报告之四(刘凯/王之含)
光大证券研究· 2025-03-07 22:30
公司业绩表现 - 2024年公司实现营业收入924.86亿元,同比增长3.52%,但归母净利润119.59亿元同比下降15.23%,业绩短期承压 [2] 宏观环境改善 - 2月制造业PMI录得50.2%,较上月回升1.1个百分点,进入扩张区间,产需指数拉动明显,采购量和生产指数均升至52%以上,从业人员指数创2023年5月以来新高 [3] - 宏观信心修复,此前压制公司业绩和估值的宏观因素边际显著改善 [3] 政策支持与业务机会 - 中共中央政治局集体学习强调建设更高水平平安中国,预计安防及数字化治理项目将加速落地,公司PBG业务有望直接受益 [4] 技术创新与产品布局 - 公司发布多模态大模型文搜存储系列产品(文搜NVR、文搜CVR),将大模型技术与嵌入式智能硬件深度融合,目标实现更广、更准、更快、更易的检索,推动多模态大模型规模化、平民化、普惠化落地 [5] - 创新业务在端侧/机器人/智联汽车/存储等领域布局,大模型催化更为直接,境外业务通过扩充产品线和增加项目型销售持续较快增长 [6] 业务结构优化 - 24H1创新业务+海外主业占比已过半,国内主业预计2025年轻装上阵 [6]
声网发布对话式AI引擎:让任意大模型开口说话
36氪· 2025-03-07 17:37
产品发布 - 公司于3月6日举办"AI开口,互动无界"发布会,推出全球首个对话式AI引擎,支持任意文本大模型升级为多模态大模型 [2] - 定价策略为0.098元/分钟,单次赠送1000分钟,智能打断功能增值服务0.042元/分钟 [2][7] 核心技术能力 - 模型选择多:支持DeepSeek、ChatGPT等全球主流大模型及语音合成供应商,兼容30000+终端机型 [4] - 响应速度快:全链路优化后语音对话延迟中位数650ms,打断响应低至340ms [5] - 抗干扰能力强:选择性注意力锁定功能屏蔽95%环境噪声,80%丢包率下仍可稳定对话 [5] - 开发效率高:仅需2行代码15分钟完成部署,支持LLM与TTS的URL/Key快速接入 [6] 成本效益分析 - 用户单次对话平均3轮问答21.1秒,成本约3分钱,月均15次对话成本不足5毛钱,年成本5元 [8] 应用场景拓展 - 主要落地场景包括智能助手、虚拟陪伴、口语陪练、智能客服及智能硬件 [10] - 智能硬件领域可实现语音控制、智能看护、个性化服务,覆盖AI玩具、教育硬件、穿戴设备等 [10]