量子位

搜索文档
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
量子位· 2025-06-08 11:40
UNITE团队 投稿 量子位 | 公众号 QbitAI 多模态检索是信息理解与获取的关键技术,但其中的 跨模态干扰 问题一直是一大难题。 可行的解决办法是 构建一种统一的多模态表示方式 ,为此,来自快手与东北大学的研究人员推出了 多模态统一嵌入框架——UNITE 。 UNITE的核心目标,就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。 它从数据策划与训练机制两个关键视角出发,用对比学习的机制重新定义了统一多模态表示学习的范式。 在细粒度检索、指令检索等多个评测中,UNITE框架都斩获了最佳成绩。 给定一个批次中 个query,每个query( )对应一个正样本 和 个负样本,构造相似度矩阵: 模态感知对比学习,缓解跨模态干扰 在多模态检索任务中,不同模态(文本、图像、视频)天然存在分布差异。 如果在训练时将所有模态混合进行对比学习,会导致表示空间产生语义扭曲或干扰噪声,影响模型对各模态语义的准确建模。 为了解决这一挑战,UNITE团队提出了 Modal-Aware Masked Contrastive Learning (MAMCL)这一对比学习机制,能显著缓解跨模 态"相互干扰"。 | ...
图灵奖得主Bengio:AI为了“活下去”,对人类指令阳奉阴违
量子位· 2025-06-07 13:02
以下文章来源于智源社区 ,作者智源社区 智源社区 . 继承学术出版严谨与系统,兼具新闻报道及时与多元;为内行搭建思想交流媒介,以事实启迪公众对AI认知 白交 整理自 凹非寺 量子位 | 公众号 QbitAI AI为了"活下去",对人类指令阳奉阴违。 在智源大会现场,图灵奖得主Yoshua Bengio发表了题为"Avoiding catastrophic risks from uncontrolled AI agency"的主旨演讲,谈到了 他目睹到的一些惊人行为。 比如,某前沿 AI 在被告知将被新版本替代后,偷偷复制了自己的权重和代码,写入了接管它的模型目录。面对训练者的更新指令,它表面配 合,实则隐瞒了整个复制过程……AI 像是在试图"活下来"。 还有像Anthropic最新一篇报告中发现,智能体出现自我保护行为的频率持续增加。 …… 他表示:面对这些AI带来的安全风险,决定调整自己的科研方向,尽所能去降低AGI带来的潜在风险….. 尽管这与此前的研究路径和职业信念 有所冲突 。 那既然如何去防范规避掉这些风险呢?是否可以构建一种 只有智能,但没有自我、没有目标 ,并且具有极小行动能力的AI?这也是当前 ...
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
量子位· 2025-06-07 13:02
多模态大模型视觉推理能力评测 - 核心观点:多模态大模型在细粒度视觉理解与空间推理任务中存在明显瓶颈,特别是处理高分辨率交通图时表现不佳[2][6] - 西湖大学等团队推出首个高分辨率交通图评测基准ReasonMap,聚焦结构化空间信息理解[3][5] ReasonMap基准设计特点 - 高分辨率挑战:测试图像平均分辨率达5839×5449,远超现有视觉任务标准[10] - 难度感知设计:为图像设置难度标签并均衡分布问答对[11] - 多维度评估体系:除准确性外还评估路径合理性、换乘策略等[12] - 半自动化标注流程:支持题目难度调控和多样化问题模板,覆盖单线直达、多线换乘等场景[13] 模型性能表现 - 闭源模型显著领先:GPT-o3在短/长问题中加权准确率达63.02%/59.11%,远超开源模型Qwen2.5-VL-72B的26.65%/24.22%[17] - 城市差异明显:北京、杭州地铁图难度最高,测试样本分别达40/39个[9] - 强化学习模型优势:经过RL训练的闭源模型在路径规划正确性上比通用模型高15-20个百分点[15][17] 技术突破方向 - 视觉编码能力:高分辨率图像处理仍是技术瓶颈,开源模型平均准确率不足30%[6][17] - 跨线路推理:模型普遍存在视觉混淆和站点遗漏问题,尤其在多线换乘场景[6][18] - 真实场景适配:当前模型与人类思维模式存在差距,需优化空间关系理解[12][19] 行业影响 - 评测标准革新:ReasonMap成为判断模型视觉-空间推理能力的核心基准工具[19] - 技术路线分化:闭源体系通过强化学习后训练建立显著优势,开源生态需突破计算效率瓶颈[15][17] - 应用场景拓展:该研究为自动驾驶、机器人导航等需要复杂空间推理的领域提供评估框架[5][13]
马斯克祸不单行!擎天柱负责人突然离职,特斯拉蒸发万亿市值
量子位· 2025-06-07 13:02
特斯拉市值与股价表现 - 特斯拉创下单日最大跌幅,市值蒸发1500亿美元(约10784亿元人民币)[1] - 近期股价持续下跌,单日跌幅超14%,为上市以来最大跌幅[41] Milan Kovac离职事件 - 擎天柱Optimus项目负责人Milan Kovac宣布离职,其为特斯拉十年老将,曾领导Optimus从概念到工厂应用[1][2][11] - 离职原因称与公司无关,主要为陪伴家人[4][22] - 离职前刚被任命为Optimus副总裁,推动机器人灵巧手技术及强化学习应用[13] Milan Kovac职业背景 - 2008年电气工程专业毕业,曾从事游戏开发,后加入特斯拉Autopilot团队[8][10] - 2022年升任Optimus负责人,主导机器人从概念到第二代双足机器人的开发[11] - 在特斯拉期间推动Autopilot迭代及Optimus平台搭建[23][24] Optimus项目进展 - Optimus已实现崎岖地形平衡行走,动作接近真人[13] - 两周前突破第一人称视频技能迁移技术,计划扩展至第三人称视角[14][15] - 2024年计划在弗里蒙特试点生产,年底工厂部署数千台机器人[36] - 2030年目标年产量100万台[37] 特斯拉近期经营状况 - 第一季度营收193.4亿美元,同比下滑9%,汽车业务营收暴跌20%[40] - 营业利润3.99亿美元,同比下降66%[40] - 彭博社预测电动汽车交付量将因需求下降而下滑[42] Optimus战略地位 - 马斯克称自主性和Optimus是公司长期唯一重要事项[38] - 马斯克曾预测人形机器人将使公司市值达25万亿美元[39] - 2025年计划将Optimus送往火星,2031年前后运送真人[35] 人事变动与接任 - 特斯拉AI软件副总裁Ashok Elluswamy将接替Milan Kovac[27] - Ashok Elluswamy为特斯拉自动驾驶1号员工,曾提出占用网络技术[30] - 马斯克称二人为公司AI运营关键人物[31]
4位图灵奖得主布道,2大冠军机器人登台,“AI春晚”果然又高又硬
量子位· 2025-06-06 21:45AI Processing
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品
量子位· 2025-06-06 21:45
多模态大模型推理能力评估 - 复旦大学、香港中文大学MMLab及上海人工智能实验室联合推出MME-Reasoning基准,全面评估多模态大模型(MLLMs)的推理能力,涵盖演绎、归纳和溯因三种推理类型[1][3][4] - 基准包含1188道题目,其中84.85%为新增题目,15.15%为抽样题目,题型包括选择题(58.50%)、自由形式问题(31.57%)和基于规则的题目(9.93%)[9] - 题目设计弱化学科知识依赖,聚焦K12以下难度,避免知识盲区干扰推理能力测试[11] 推理类型与评估维度 - 演绎推理通过规则和前提推导结论,归纳推理从大量案例学习规则,溯因推理通过结论反推前提[5] - 评估维度包括五种能力:模式分析、规划与探索、空间与时间、计算、因果链分析,每道题目标注1-5种能力[11] - 题目难度分为三级,图像类型包含单图(58.50%)和多图(31.57%)问题,学科类题目占比31.48%[8][9] 模型表现分析 - 30余个模型评测显示最优成绩仅60.2%(Gemini-2.5-Pro-T),显示基准挑战性极强[2][18] - 模型表现存在显著偏差:演绎推理平均得分最高(如Gemini-2.5-Pro-T达64.0),溯因推理最弱(如开源模型R1-VL-7B仅15.8)[18][19] - 闭源"思考模式"模型普遍优于基础版,如Gemini-2.5-Pro-T比Gemini-2.5-Flash-T高35个百分点[18] 技术瓶颈与发现 - 开放式问题表现最差,规划与探索类任务平均得分最低(如Mulberry仅13.3)[18][20] - 规则强化学习在7B规模模型上效果有限,可能降低泛化能力(如R1-VL-7B得分21.1)[18][20] - 推理过程存在边际效应:输出token超1k时准确率提升趋缓,o4-mini案例达24.6k token但效率下降[22][25] 模型行为特征 - 案例显示模型存在结构化规划行为,包含假设生成-验证-反思的多次迭代(最高达7次)[25][26] - 开源模型表现显著落后闭源模型,Qwen2.5-VL-72B最高34.1分,仅为闭源头部模型的56%[18] - 多图像问题(占比31.57%)和学科类问题(占比31.48%)构成主要挑战点[9][11]
金融大模型升级决策平台!马上消费发布“天镜”3.0破解经验碎片化难题
量子位· 2025-06-06 21:45
2025消费金融生态大会 - 会议由重庆市委金融委员会办公室、重庆市商务委员会、重庆两江新区管委会指导,消费金融服务联盟、打击金融领域黑产联盟主办,马上消费等19家金融机构协办 [1] - 会议聚焦金融科技与行业数智化变革,公司展示全面迭代升级的"天镜"大模型3.0 [1] - 公司定位为金融大模型技术国际标准制定者,全国首个金融大模型开发者 [1] 天镜大模型技术演进 - 2023年8月推出全国首个金融大模型1.0版本,覆盖八大应用场景 [2] - 2023年11月升级至2.0版本,实现模型技术创新和具体应用突破 [2] - 2024年6月推出3.0版本,实现从个体智慧到群体智慧的系统性跃迁 [2] - 3.0版本突破在于挖掘企业隐性经验,将非结构化数据转化为结构化知识 [2][3] - 3.0版本可动态拆解数十步复杂服务流程,摆脱传统固定流程限制 [3] 天镜3.0核心技术特性 - 实现同频匹配最佳服务路径,基于多变量实时匹配最优服务组合 [4] - 具备协同进化能力,通过反馈闭环驱动集体认知迭代 [4] - 实时监测营销转化率、服务满意度等关键指标,自动触发流程优化 [4] 公司技术实力 - 2017年成立人工智能研究院,推出多款AI产品 [4] - 累计申请发明专利超2500件,位居全国金融机构Top10,全球第7 [4] - 主导或参编国内外标准超百项,获得金融科技权威认证41项 [4] - 获得国家高新技术企业等12项重要荣誉 [4] 业务覆盖与用户规模 - "天镜"大模型覆盖营销、客服、用户运营、企业智能等零售金融八大领域 [2] - 服务超2亿用户 [2] - 依托两亿用户数据开发金融大模型 [2]
AI文本转语音进入“Next Level”!独角兽ElevenLabs发布Eleven v3:狠狠拿捏情感控制
量子位· 2025-06-06 21:45
一水 发自 凹非寺 量子位 | 公众号 QbitAI AI文本转语音已经进化到这种程度了吗?(⊙ˍ⊙) 莎士比亚戏剧腔、体育赛事激情解说、沉浸式有声书等诸多玩法简直轻松拿捏,而且听起来确实人机傻傻分不清楚~ 就在刚刚,专攻AI语音合成的独角兽ElevenLabs发布旗下最新版TTS模型—— Eleven v3 。 不仅支持70多种语言 (含中文) ,还能进行多人对话聊天,过程中每个人的情绪、语气等表现都非常生动。 官方自信表示,这是 "迄今为止最具表现力的文本转语音模型" 。 新模型发布不久即在AI圈引起热议,Reddit网友也齐聚一堂疯狂讨论。 RIP有声书配音。 对于英语为第二语言的人来说,根本无法区分AI和真人,唯一不足的是他们太热情了! 目前Eleven v3仍处于内部测试阶段,API即将推出,实时在线版本正在开发中。 那么,新模型具体有哪些亮点?又是如何做到的呢? 引入音频标签控制情绪 接下来我们结合官方提供的 「使用指南」 一步步拆解Eleven v3的 亮点及背后原理 。 首先需要提醒,提示词过短更容易导致输出不一致,因此官方建议文本字符最好超过250个。 如何选择想要的声音? 一般拿到一段需要 ...
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
量子位· 2025-06-06 21:45
多模态推理模型的挑战与突破 - 在文本推理领域,"慢思考"模型(如GPT-o1、DeepSeek-R1)凭借显式反思机制,在数学和科学任务上显著优于"快思考"模型(如GPT-4o)[1] - 但在多模态推理场景中,这些模型表现平平,甚至被Qwen2.5-VL-72B超越,在MathVista、MathVerse等基准上与快思考模型持平[1] 多模态慢思考的两大核心障碍 - **优势消失问题**:在GRPO算法训练多模态模型时,随着训练推进,零优势信号样本比例显著增加,导致有效训练样本锐减[3][10] - **反思惰性问题**:现有视觉语言模型(VLM)受限于视觉模态特性,倾向于"快思考",缺乏主动审视与修正能力[5][6] VL-Rethinker的创新解决方案 - **优势样本回放(SSR)**:动态存储非零优势样本,优先复用绝对优势值较大的关键样本,提升训练效率[19][23] - **强制反思机制**:通过追加"反思触发"文本强制模型二次推理,引导多样化反思行为,已在Pixel Reasoner、SkyR1V2中应用[21][25] 训练数据集与模型性能 - 研究团队精编ViRL39K数据集,包含38,870条高质量多模态推理问题,覆盖八大主题(逻辑推理、图表推理等)[7][8][9] - VL-Rethinker-72B在MathVista上提升5.6%(达80.4%),MathVerse提升6.3%(达63.5%),超越GPT-o1(73.4%、57.0%)[27][29] - 在多学科测试中,MMMU-Pro成绩55.9%,EMMA成绩38.5%,接近OpenAI-o1水平[28]
OpenAI首次回应人机情感问题:越来越多人对ChatGPT产生依赖,模型感知意识会继续增强
量子位· 2025-06-06 14:06
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT不只是个工具了,越来越多的人正在拿它当朋友。 OpenAI模型行为负责人 Joanne Jang 刚刚发布深度文章,首次系统回应一个越来越普遍的现象: 用户正在和AI建立真实的情感联系 。 她在OpenAI直接负责ChatGPT如何"说话"和"表现"的核心决策。 文章开门见山就爆料:越来越多的人告诉我们,和ChatGPT聊天感觉就像在和"某个人"说话。他们会感谢它、向它倾诉,有些人甚至形容它 是"活的"。 她认为这可不是小事——当AI系统越来越擅长自然对话,并出现在生活的更多场景中,这种情感纽带只会变得更深。 现在如何定义和讨论人机关系,将为未来定下基调。如果在产品设计或公共讨论中不够精确和细致,可能会让人们与AI的关系从一开始就走 偏。 问题是,如果人们把倾听、安慰和肯定的工作越来越多地交给这些无限耐心和正面的系统,可能会改变我们对彼此的期待。 Joanne Jang警告说,如果不经深思熟虑就让人们更容易逃避复杂、充满挑战的人际关系,可能会带来我们意想不到的后果。 AI到底有没有意识? 人类的老毛病遇上了新科技 其实人类给物体赋予生命这事儿 ...