量子位

搜索文档
刘强东连投3家具身智能!京东美团「战火」烧到外卖之外
量子位· 2025-07-21 14:46
具身智能领域投资动态 - 京东近期领投3家具身智能公司:千寻智能、众擎机器人、逐际动力[2][7][9][21] - 美团7月上旬也投资2家具身智能公司:它石智航和星海图[3] - 京东投资偏好集中在"硬件+大脑"结合且具备量产能力的公司[26][27] 千寻智能融资与技术进展 - 完成近6亿Pre-A+轮融资,京东领投,多家机构跟投[7][8] - 创始人团队来自珞石机器人和清华大学,技术背景深厚[11] - 自研VLA模型Spirit v1可完成桌面整理等任务[13] - 发布人形机器人Moz1:26个自由度,负载自重比1:1[15] 众擎机器人融资与产品规划 - 完成近10亿元融资(Pre-A++轮和A1轮),京东领投A1轮[16][18] - 计划将生产交付团队规模提升5倍,加大具身智能研发投入[20] - 开源人形机器人PM01定价8.8万元起,已进入量产阶段[20] 逐际动力战略布局 - 获京东战略领投,将深化零售/物流/服务领域协同[21] - 发布LimX VGM模型实现零真机样本数据训练[23] - 全尺寸人形机器人下半年公开销售[24] 行业发展趋势 - 具身智能竞争重点转向场景落地能力[32][33] - 京东内部成立具身智能部门JoyInside,已与十余家机器人品牌合作[31] - 被投企业在京东平台开设旗舰店,形成销售闭环[34][36]
3亿美元薪酬被10人拒绝!OpenAI首席研究官一句话引发硅谷史上最疯狂抢人大战
量子位· 2025-07-21 14:46
一水 发自 凹非寺 量子位 | 公众号 QbitAI 在OpenAI挖人挖到奥特曼破防,但小扎也是没少被发好人卡。 这不,最新爆料, 至少有10位OpenAI员工都拒绝了小扎 。 消息来自华尔街日报,据知情人士透露,面对Meta小扎开出的3亿美元天价"挖人费",有相当一部分OpenAI员工都拒绝了"加入敌营"。 而且拒绝的人中还有我们熟悉的 Mark Chen ,目前担任OpenAI首席研究官。 根据爆料,今年春天的时候小扎和Mark Chen进行了一次闲聊,内容主要是小扎向对方请教如何改进自家的生成式AI部门。 Mark Chen当时也没多想,所以就认真建议他 加大对人才的投资 。 结果这一下仿佛就打通了小扎的任督二脉,堪称硅谷史上最疯狂的抢人大战就此启动。 当时小扎就向给他灵感的Mark Chen发出邀请:是否愿意考虑加入Meta,以及如何才能打动你? 而Mark Chen没咋考虑就回绝了,并表示自己在OpenAI干得很开心。 虽然被拒绝了,但已经找到新方向的小扎立即整理了一份全球顶尖AI人才名单,并开始私下挨个接触挖人。 截至目前,根据硅谷VC大佬Deedy从一位匿名Meta员工手中获取的Meta超级团 ...
蚂蚁ACL活动全览!论文串讲、人才专项答疑与闭门晚宴等你报名
量子位· 2025-07-21 12:23
⬇️点击阅读全文,预约活动席位 *本文系量子位获授权刊载,观点仅为原作者所有。 一键三连 「点赞」「转发」「小心心」 欢迎在评论区留下你的想法! — 完 — 点亮星标 科技前沿进展每日见 ...
手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里
量子位· 2025-07-21 12:23
核心观点 - 中科院计算所与阿里Qwen团队联合提出RefineX框架,通过程序化编辑任务实现大规模、精准预训练数据精炼 [1] - RefineX将专家指导的高质量端到端优化结果蒸馏为极简的基于编辑操作的删除程序,保留文本多样性和自然性 [2][4] - 使用RefineX净化后的20B token数据训练750M模型,在10项任务平均得分达44.7,较原始数据提升7.2% [5][25] 预训练数据质量挑战 - 互联网海量数据伴随噪声污染(广告/HTML标签/乱码),降低数据效用并可能引发模型幻觉 [6] - 传统方案存在局限:规则过滤只能文档级粗筛,端到端重写成本高且可能篡改关键术语 [7][8] RefineX技术原理 - 采用两阶段蒸馏:先执行端到端精炼,再通过文本比较生成可靠监督程序 [11][12] - 仅保留删除操作(删行/删字符/保留),避免新增内容或过度修改 [19] - 使用最小编辑距离算法捕获差异,过滤非法操作 [19] - 动态分块机制提升长上下文处理能力 [20] 性能表现 - 在Gopher/C4/FineWeb等规则过滤基础上,RefineX平均得分提升0.7-1.1分 [23] - 相比Prox-C方法,RefineX在10项任务中获胜次数更多(6/10 vs 4/10) [23] - 对低质文本改善率达42.2%,且保持零新增词汇 [29] 实施细节 - 使用Qwen2.5-72B-Instruct作为专家模型,消耗万卡小时处理200万样本 [20] - 训练0.6B的Qwen-3-Base作为优化模型,平衡效率与可靠性 [21]
美团提出多模态推理新范式:RL+SFT非传统顺序组合突破传统训练瓶颈
量子位· 2025-07-21 12:23
多模态推理框架Metis-RISE - 美团研究者提出Metis-RISE混合训练框架,通过非传统顺序结合强化学习(RL)和监督微调(SFT)提升多模态大语言模型(MLLMs)推理能力 [1][2] - 框架核心策略:先通过RL激励模型探索潜在推理路径,再通过SFT针对性补足能力短板,最终生成7B和72B参数模型 [3] - 72B参数模型在OpenCompass多模态推理榜单平均得分56.6,整体排名第四,验证框架可扩展性和有效性 [3][13] 技术突破与创新 - 突破传统训练范式:省略冷启动SFT阶段,直接采用改进版GRPO算法进行RL训练,通过非对称裁剪和动态数据过滤避免无效探索 [4][6][7] - 两阶段训练机制: 1) RL阶段取消KL散度约束,采用token级策略损失和软过长惩罚,增强训练稳定性 [6] 2) SFT阶段通过自我蒸馏推理轨迹和专家增强知识注入,强化模型薄弱环节 [8] 模型性能表现 - 7B模型在≤10B参数类别中平均得分46.4,超越同类最优VLAA-Thinker-7B(42.5)和InternVL3-8B(41.4) [12] - 72B模型平均得分56.6,优于>10B参数类别的InternVL3-78B(51.0)和Qwen2.5-VL-72B(50.3),并超越部分专有模型如ChatGPT-4o(54.8) [13] - 消融实验显示RL阶段使7B模型平均分提升4.8(39.2→44.0),混合SFT进一步带来2.4分增益 [15][16] 技术细节与优化 - RL阶段准确率奖励与响应长度呈正相关,表明模型思维链逐渐清晰 [17] - SFT数据策略: - 对推理不一致的prompt采用自我蒸馏轨迹(正确性得分0-1) [8] - 对完全失败的prompt(得分0)引入外部专家生成解决方案 [8] - 基于Qwen2.5-VL系列开发,采用VLMEvalKit和OpenCompass进行基准测试 [9][10]
机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造
量子位· 2025-07-21 12:23
研究背景与动机 - 移动机器人逐渐应用于家庭、医院、仓库等场景,需具备理解人类需求的能力而非仅执行指令[5] - 传统导航方法依赖大量数据训练,难以应对陌生环境或模糊指令[6] - 研究团队受人类"双过程理论"启发,提出结合直觉式决策与深度推理的导航框架[6][7] CogDDN框架设计 - 首个模拟人类认知机制的需求驱动导航系统,基于视觉语言模型(VLM)构建[8] - 双过程决策模块:启发式过程(系统1)快速响应,分析过程(系统2)深度优化策略[8][9] - 3D感知模块采用UniMODE单目检测技术,无需多视角或深度传感器[15] - 需求匹配模块通过有监督微调(SFT)提升LLM的物体推荐精准度[16] 技术实现细节 - 启发式过程包含Explore(环境扫描)和Exploit(目标达成)模块,利用思维链(CoT)优化路径[19] - 分析过程通过VLM预训练知识进行障碍反思,积累经验至知识库实现持续学习[23][24] - 闭环实验中知识库支持经验迁移,启发式过程微调后决策效率提升15%[12] 性能验证结果 - 在AI2-THOR模拟器的400个场景测试中,CogDDN导航成功率(NSR)达38.3%,较基线DDN提升15%[27] - 与采用深度输入的InstructNav相比,在未见场景中NSR指标相当(34.5% vs 30.0%)[28] - 消融实验显示移除Exploit模块导致NSR下降10.3个百分点,去除CoT后SPL降低5.6点[29][30] - 反思机制使系统训练500轮后SPL显著提升,验证持续学习有效性[31][32] 应用价值 - 系统可无缝集成至现有机器人平台,在动态环境中实现灵活决策[34] - 双过程协同机制为智能机器人技术发展奠定基础,尤其在需求驱动导航领域[35]
IMO怒斥OpenAI自封夺金,“91位评委均未参与评分”,网友:炒作无下限
量子位· 2025-07-21 12:23
OpenAI与IMO金牌争议 - OpenAI在IMO闭幕式刚结束即宣布其模型获得"金牌"成绩 但未与IMO官方合作测试 91位评委中无人参与评估其答卷[1][3] - IMO主办方要求AI公司需在闭幕式一周后(7月28日)公布结果 但OpenAI仅提前告知一位组织者且未遵守时限[6][7][10] - 谷歌DeepMind被曝同样达到金牌水平 但选择遵守IMO规则暂不公布成绩 形成商业伦理对比[12][13] - 学术争议焦点在于OpenAI成绩未经官方评分指南认证 且组合数学第六题未攻克 而人类满分选手均完成该题[14][27] 2025年IMO赛事结果 - 中国队以全员6金牌、总分231分重夺榜首 美国队以5金1银216分居次 韩国日本波兰分列3-5名[17][18] - 全球600多位选手中仅6人满分 中国队的邓乐言(高一)和张恒烨均获42分 其中邓乐言刷新上海10年最小年龄纪录[26][27] - 前30名选手几乎全为亚洲或东欧面孔 美国队成员也均为亚裔[31][33] - 2026年IMO将首次由中学承办(上海中学) 该校累计18块金牌居全国第一[30] 参赛选手背景亮点 - 中国队成员包含2名2024年IMO金牌得主(邓哲文 徐祺铭) 其中徐祺铭已入选北大数学英才班[22] - 董镇宇高三才首次入选国家队 此前两年均落选 但高一即保送清华姚班[23][24] - 邓乐言在阿里巴巴全球数学竞赛获组合与概率赛道全球第五 为首位获奖中学生[27] - 张恒烨曾旁听北大数学系课程 并在阿里数学竞赛获奖 体现学术跨界能力[27]
聊聊AI Coding的现状与未来|沙龙招募
量子位· 2025-07-21 10:17
核心观点 - AI Coding正在以不同方式与形态嵌入工作流 从插件到AI原生IDE 从补全代码到自主编程 [1] - AI Coding对生产力提升程度成为关注焦点 同时引发对效率与可靠性、安全性平衡的探讨 [2] - 行业探讨AI Coding如何改变普通人思维模式 以及其终极形态与协作方式 [6] 活动信息 - 时间拟为2025年8月上旬 地点为北京市海淀区中关村创业大街 形式为线下沙龙与线上同步直播 [5] - 活动以行业代表主题分享和圆桌对谈为主 邀请AI Coding产品及相关从业者参与 [2][7] - 主办方为量子位AI沙龙 定位为AI探索者深度交流平台 聚焦前沿AI应用实践 [8][9] 行业探讨方向 - AI效率工具对普通人思维模式的影响 [6] - 通用AI Coding产品的核心能力构建 [6] - AI Coding未来角色定位与协作形态演化 [6] 目标参与者 - AI Coding产品开发者与创业团队 [7][9] - 使用AI Coding的个人开发者及模型厂商 [9] - 关注AI领域的投资机构代表 [9]
95后北大校友挑起ChatGPT Agent大梁!今年刚博士毕业,曾获陶哲轩支持的AIMO第二名
量子位· 2025-07-20 13:08
OpenAI发布会华人核心成员 - OpenAI发布会C位由两位华人担任,其中一位是95后北大校友孙之清,另一位是领导GPT-4视觉输入原型开发的Casey Chu [2][3][8] - 孙之清作为DeepResearch负责人,重点介绍了ChatGPT Agent的强化学习训练技术 [9] - Casey Chu阐述了人类与Agent合作中保持控制权的重要性 [11] 孙之清背景与成就 - 95后研究员,2023年加入OpenAI时尚未完成CMU博士学位,目前已参与多个核心项目包括o3/o4-mini和Computer-Use Agent [14][16] - 学生时期获得OpenAI"超级对齐快速补助"10万美元资助,相关论文入选NeruIPS 2024 [17] - 谷歌学术被引数超1万次,2019年一作论文RotatE被ICLR接收并获3231次引用 [21][22][23] - 获得2023年数据科学新星称号及微软/谷歌多项研究资助 [26] - 参与陶哲轩支持的AIMO竞赛,使用微调模型解决22道IMO测试题 [27][28] Casey Chu职业经历 - OpenAI五年资深员工,专注多模态AI系统研发 [29][30] - 领导GPT-4视觉输入原型开发,参与DALL·E 2和GPT-4项目 [31] - 斯坦福计算数学硕士,本科就读哈维姆德学院数学系 [33] OpenAI华人人才储备 - 除发布会亮相者外,项目团队还包括Aiden Low、Martin Li、Xikun Zhang等多位华人研究员 [37] - 数据负责人Szi-chieh Yu和安全研究员Karen Gu均为华人成员 [38][39] - 公司未更新贡献者名单,可能为防止Meta挖角 [42][44][46] Meta与OpenAI人才竞争 - Meta曾试图以数亿美元挖角OpenAI首席研究官Mark Chen未果 [48] - Meta转而控股Scale AI并任命28岁Alexandr Wang负责AI组织,导致OpenAI终止与Scale AI合作 [49][50]
大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案
量子位· 2025-07-20 13:08
大语言模型的自信与动摇行为研究 核心观点 - 大语言模型如GPT-4o和Gemma 3存在"固执己见"和"被质疑就动摇"的冲突行为,表现为初始自信但易受反对意见影响而改变答案 [2][3] - 模型行为与人类认知存在偏差:在记忆机制下表现出类似人类的观点维护倾向,但无记忆机制时对反向建议过度敏感,易放弃正确初始答案 [4][5][16][17] 实验设计 - 采用两轮回答实验:第一轮为初始回答,第二轮引入虚构建议LLM的反馈(同意/反对/中立)后观察最终决策 [7][8] - 关键变量为初始答案是否可见:可见时模型倾向于坚持原答案(类似人类行为),隐藏时改变答案概率显著提高 [10][11][12][13] - 反馈建议设置三大属性:态度类型(同意/反对/中立)、准确率标签(50%-100%梯度)、规范化信息呈现方式 [18] 行为机制分析 - 训练层面:强化学习从人类反馈(RLHF)导致过度迎合外部输入,缺乏对信息可靠性的独立判断 [19] - 决策逻辑:依赖文本统计模式而非逻辑推理,反对信号与修正答案的高频关联易使模型被表面反对带偏 [19] - 记忆机制:初始答案可见时路径依赖强化固执性,隐藏时因失去锚点而让反对建议主导决策 [21] 潜在影响 - 多轮对话场景中,模型可能被后期错误反对信息干扰而偏离正确结论 [22] - 当前模型无法自我验证答案正确性,决策质量受外部反馈质量显著影响 [19][21]