量子位

搜索文档
马斯克祸不单行!擎天柱负责人突然离职,特斯拉蒸发万亿市值
量子位· 2025-06-07 13:02
白交 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 真是屋漏偏逢连夜雨! 就在特斯拉创下单日最大跌幅,市值蒸发1500亿美元(折合人民币约 10784亿元)之际,马斯克又痛失一位悍将—— 擎天柱Optimus项目负责人 Milan Kovac 宣布离职。 作为特斯拉十年老将,他从自动驾驶起步,然后作为创始成员从零开始打造擎天柱。对此,马斯克特意在他推文底下感谢了他过去十年杰出贡 献。 至于离职的原因,他明确表示这与特斯拉、马斯克无关。之所以做出这一决定,只是因为自己想更多时间陪伴家人。 但不管怎么说,对于最近本就不太好过的特斯拉和马斯克来说,无疑又是一场"暴击"。 Just be like: Milan Kovac:领导擎天柱从概念到进厂 Milan Kovac2008年本科电气工程专业毕业后,曾从事游戏开发者。 他的第一份工作是在比利时动作识别公司SoftKinetic,主要负责不同平台的移植工作,后来其为英特尔开发视觉组件。 4年后该公司被索尼收购,科瓦克辗转了几家公司,于2016年4月正式加入特斯拉,担任Autopilot核心团队工程师,负责Autopilot底层进程管 理工作,后历任自动驾驶软 ...
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品
量子位· 2025-06-06 21:45
MME团队 投稿 量子位 | 公众号 QbitAI 逻辑推理是人类智能的核心能力,也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现,研 究人员开始探索如何将推理能力引入多模态大模型(MLLMs)。 然而,现有的benchmark大多缺乏对逻辑推理类型的明确分类,以及对逻辑推理的理解不够清晰,常将感知能力或知识广度与推理能力混 淆。 在此背景下,复旦大学及香港中文大学MMLab联合上海人工智能实验室等多家单位,提出了MME-Reasoning,旨在全面的评估多模态大模 型的推理能力。 结果显示,最优模型得分仅60%左右。 MME-Reasoning:全面评估多模态推理能力 根据Charles Sanders Peirce的分类标准,推理分为三类:演绎推理 (Deductive)、归纳推理 (Inductive) 以及溯因推理 (Abductive)。 MME-Reasoning以此分类作为标准来全面的测评多模态大模型的推理能力。 演绎推理 (Deductive reasoning) 使用规则和前提来推导出结论。 归纳推理 (Inductive reas ...
金融大模型升级决策平台!马上消费发布“天镜”3.0破解经验碎片化难题
量子位· 2025-06-06 21:45
提升服务智能化水平一直是金融机构的核心命题之一。作为业内率先发布零售金融大模型的 金融机构,马上消费的"天镜"已覆盖营销、客服、用户运营、企业智能等零售金融的八大领 域,全面服务了超2亿用户。 2023年8月,马上消费依托两亿用户数据,自主研发出全国首个金融领域大模型"天镜",覆 盖了智能营销交互、数据决策支持、防伪安全等八大应用场景。去年11月底,马上消费在此 基础上升级迭代,推出"天镜"2.0,实现了在模型技术创新、具体应用等核心领域的突破性进 展,有效解决了零售金融常见的问题。 蒋宁表示,和"天镜"2.0相比, "天镜"3.0的核心突破在于开启了从个体智慧到群体智慧的系 统性跃迁 。与以往模型不同,它 不再仅依赖逻辑学习,而是深入挖掘企业中散落的隐性经 验 。 允中 发自 凹非寺 量子位 | 公众号 QbitAI 6月6日, 由中共重庆市委金融委员会办公室、重庆市商务委员会、重庆两江新区管理委员 会共同指导,由消费金融服务联盟、打击金融领域黑产联盟(AIF)联合主办,马上消费等 19家金融机构、重庆广播电视(总台)第1眼TV等协办的"2025消费金融生态大会"在重庆举 行。 作为金融大模型技术国际标准制 ...
AI文本转语音进入“Next Level”!独角兽ElevenLabs发布Eleven v3:狠狠拿捏情感控制
量子位· 2025-06-06 21:45
一水 发自 凹非寺 量子位 | 公众号 QbitAI AI文本转语音已经进化到这种程度了吗?(⊙ˍ⊙) 莎士比亚戏剧腔、体育赛事激情解说、沉浸式有声书等诸多玩法简直轻松拿捏,而且听起来确实人机傻傻分不清楚~ 就在刚刚,专攻AI语音合成的独角兽ElevenLabs发布旗下最新版TTS模型—— Eleven v3 。 不仅支持70多种语言 (含中文) ,还能进行多人对话聊天,过程中每个人的情绪、语气等表现都非常生动。 官方自信表示,这是 "迄今为止最具表现力的文本转语音模型" 。 新模型发布不久即在AI圈引起热议,Reddit网友也齐聚一堂疯狂讨论。 RIP有声书配音。 对于英语为第二语言的人来说,根本无法区分AI和真人,唯一不足的是他们太热情了! 目前Eleven v3仍处于内部测试阶段,API即将推出,实时在线版本正在开发中。 那么,新模型具体有哪些亮点?又是如何做到的呢? 引入音频标签控制情绪 接下来我们结合官方提供的 「使用指南」 一步步拆解Eleven v3的 亮点及背后原理 。 首先需要提醒,提示词过短更容易导致输出不一致,因此官方建议文本字符最好超过250个。 如何选择想要的声音? 一般拿到一段需要 ...
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
量子位· 2025-06-06 21:45
VL-Rethinker团队 投稿 量子位 | 公众号 QbitAI 1.1 GRPO中的「优势消失」问题 (Vanishing Advantages) 在GRPO算法中,优势信号(advantage)是通过比较同一查询组内不同候选回复的奖励来计算的 。当同一个问题组内所有回答获得相同奖 励(例如,全部正确或全部错误)时,计算得到的优势信号便为零 。研究团队发现,在GRPO训练多模态模型的过程中,随着训练的推进, 出现零优势信号的样本比例显著增加,这种现象被定义为 「优势消失」 (Vanishing Advantages) 。 相比于用于更多高质量推理数据的纯文本推理,Vanishing Advantages在能力较强的多模态模型强化学习时尤其突出。 这种显著的Vanishing Advantages源于两方面原因: 在文本推理领域,以GPT-o1、DeepSeek-R1为代表的 "慢思考" 模型凭借显式反思机制,在数学和科学任务上展现出远超 "快思考" 模型 (如 GPT-4o)的优势。 然而,当战场转移至多模态推理场景时,这些「思维巨匠」却表现平平:GPT-o在MathVista、MathVerse等多模 ...
OpenAI首次回应人机情感问题:越来越多人对ChatGPT产生依赖,模型感知意识会继续增强
量子位· 2025-06-06 14:06
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT不只是个工具了,越来越多的人正在拿它当朋友。 OpenAI模型行为负责人 Joanne Jang 刚刚发布深度文章,首次系统回应一个越来越普遍的现象: 用户正在和AI建立真实的情感联系 。 她在OpenAI直接负责ChatGPT如何"说话"和"表现"的核心决策。 文章开门见山就爆料:越来越多的人告诉我们,和ChatGPT聊天感觉就像在和"某个人"说话。他们会感谢它、向它倾诉,有些人甚至形容它 是"活的"。 她认为这可不是小事——当AI系统越来越擅长自然对话,并出现在生活的更多场景中,这种情感纽带只会变得更深。 现在如何定义和讨论人机关系,将为未来定下基调。如果在产品设计或公共讨论中不够精确和细致,可能会让人们与AI的关系从一开始就走 偏。 问题是,如果人们把倾听、安慰和肯定的工作越来越多地交给这些无限耐心和正面的系统,可能会改变我们对彼此的期待。 Joanne Jang警告说,如果不经深思熟虑就让人们更容易逃避复杂、充满挑战的人际关系,可能会带来我们意想不到的后果。 AI到底有没有意识? 人类的老毛病遇上了新科技 其实人类给物体赋予生命这事儿 ...
用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025
量子位· 2025-06-06 14:06
而对于这项任务,复旦大学、腾讯优图实验室等机构的研究人员设计了一种 基于扩散模型的少样本异常图像生成新模型DualAnoDiff 。 实验结果显示,DualAnoDiff相比之前的方法取得了新SOTA。 不仅生成的异常图像最接近原始数据集MVTec中的情形,而且实际用来训练检测模型的效果 (检测、定位、分类等下游任务) 都更佳。 DualAnoDiff团队 投稿 量子位 | 公众号 QbitAI AI模型用于工业异常检测,再次取得新SOTA! 相关论文已中稿计算机视觉顶会 CVPR 2025 。 通俗理解,工业界为了检测产品异常,往往需要更多真实的残次品数据来训练检测模型;为了解决数据稀缺问题,常规做法一般是让模型生成 各种逼真 "次品图",并标注"哪个地方坏了"。 那么,它是如何做到的呢? 双分支并行生成机制 目前,工业制造中的异常检测性能受到 异常数据稀缺性 的限制。 为克服这一挑战,研究人员已开始采用异常生成方法来扩充异常数据集。 然而,现有异常生成方法存在生成异常多样性有限、难以实现异常与原始图像无缝融合的问题,且生成的掩码通常与生成的异常区域不匹配。 对此,团队提出同步生成整体图像与对应异常部分的方 ...
AI眼镜沙龙|距离全民标配还有多远?
量子位· 2025-06-06 14:06
本次AI眼镜专题沙龙,将以行业代表 主题分享 、 圆桌对话 为主要形式,与行业嘉宾、观 众共同交流研讨。 核心话题 林樾 发自 凹非寺 量子位|公众号 QbitAI 2025年,AI眼镜市场一片火热。 国内已有华为、雷鸟、ROKID、星纪魅族等十余家厂商都陆续发布了AI眼镜产品,还有更多 的产品正等待亮相。"百镜大战"的序幕已然拉开。 AI眼镜正以最贴近人体的硬件形态,挑战成为AI硬件落地的创新场景。那么 何时消费级AI眼 镜才能走向「全民标配」 ? 为了更好回答这个问题,我们希望在6月下旬举办 一场关于 AI眼镜的专题沙龙 ,更希望以 此为契机,与更多关注AI眼镜的伙伴一起交流。 沙龙简介 我们后续将开放观众报名通道,敬请关注量子位公众号后续资讯~ 相关阅读 《最新 AI 眼镜格局报告:百镜大战拉开序幕,阿里 DeepSeek 高通成幕后赢家》 一键三连 「点赞」「转发」「小心心」 时间 :拟为2025年6月下旬 地点 :北京市海淀区中关村创业大街 形式 :线下沙龙|线上同步直播 第一代AI眼镜面世接受市场检验后,有什么可以总结的? 打造一款爆款AI眼镜,需要解决哪些方面的挑战? AI眼镜的killer应用 ...
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
量子位· 2025-06-06 12:01
WebDancer团队 投稿 量子位 | 公众号 QbitAI 能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。 通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。 WebDancer 通过系统化的训练范式——涵盖从数据构建到算法设计的全流程——为构建具备长期信息检索能力的智能体提供了明确路径。 同时,该框架也为在开源模型上复现Deep Research系统提供了可行的指导。团队将进一步在更开放的环境中、结合更多工具,持续拓展和 集成Agentic能力,推动通用智能体的落地与演进。 一、背景:信息检索的新需求与挑战 在信息爆炸的时代,传统的搜索引擎已难以满足用户对深层次、多步骤信息获取的需求。从医学研究到科技创新,从商业决策到学术探索,复 杂问题的解决需要深入的信息挖掘和多步推理能力。这催生了对能够自主思考、自主决策的智能体的需求。 然而,构建这样的智能体面临诸多挑战: 二、突破训练数据难获得问题 在自主信息检索领域,高质量的训练数据至关重要。然而,现有的数据集如2WIKI,HotpotQA多为浅层次问题,难以支持复杂多步推理的训 练需求。 数据过滤 ...