量子位
搜索文档
多轮Agent蒸馏终于不翻车!港中文x通义新方法成功率暴涨18点,训练还快32%
量子位· 2026-05-07 08:28
TCOD团队 投稿 凹非寺 量子位 | 公众号 QbitAI 把强大模型的能力"蒸馏"给小模型,听起来很美—— 但放到多轮对话Agent场景里,效果往往一塌糊涂。 为什么? 香港中文大学联合阿里通义事业群给出了答案,并提出了一种名为 TCOD (Temporal Curriculum On-Policy Distillation)的训练方法。 上图(左)表示在多轮Agent的OPD训练中,随着交互轮次的增加,教师模型对学生生成回复中各token的概率分配持续降低,表明每轮的 KL 散度不断攀升,最终导致监督信号失效。(右)表示原始OPD使用完整轨迹进行训练,因此包含了所有累积的误差;而TCOD-F2B/B2F 则通过课程学习,从短轨迹逐步扩展至长轨迹,有效规避了误差轮次的干扰。) 团队发现失效的根本原因在于 轨迹级KL不稳定性 ,每一轮误差不断累积,把学生模型推到老师模型从未见过的状态区域,老师的监督信号 因此彻底失效。 而TCOD用课程学习的思路,让学生模型从短轨迹开始、循序渐进地学习完整轨迹,一举解决了多轮Agent蒸馏的稳定性难题。 TCOD只需对现有OPD代码做极少改动 On-Policy Disti ...
马斯克22万张GPU全卖给Claude用:5小时限额翻倍,双方合作建太空算力
量子位· 2026-05-07 08:28
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI Grok用户只能缓缓打出一个问号。 马斯克对Anthropic之前可是一点好脸色没有。 另一边,马斯克和OpenAI的诉讼还在焦灼受审。 好一个敌人的敌人就是朋友。 Claude用户(仅限付费用户)一觉醒来,发现限额翻倍,速度还变快了。 △ GPT-Image-2生成 活久见! 马斯克 和 Anthropic 联手了,签署算力合作协议大单。 马斯克旗下的Colossus 1超算集群 全部 给Claude用,整整 220000张英伟达GPU 或者说300兆瓦算力。 就在三个月前,他还不断强烈抨击Anthropic,称他们必然走向名字的反面"反人类主义"。 后面还反复追评"Anthropic憎恨西方文明",质问"还有比Anthropic更虚伪的公司吗?"。 合作一达成,老马立即变脸: 和Anthropic高层的会面令人印象深刻, 没有人触发我的邪恶探测器 。 Claude限额翻倍,算力采购进入多供应商时代 这是一笔足以改写AI算力格局的交易。 Colossus 1是SpaceXAI从零开始、以创纪录速度建成的超算集群。 22万多张英伟达GPU密布数据中心里,从 ...
波士顿动力泯然众人了,高管集体出走,机器人“量产”只能造4台
量子位· 2026-05-06 18:02AI 处理中...
henry 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,波士顿动力又放出了一段Atlas的新demo。 demo中的Atlas机器人完成了一套高难度体操动作,比如倒立,双臂支撑,腰马合一,非常流畅。 据悉,这是波士顿动力新一代的Altas人形机器人,也就是2026年初CES展示的量产版本。 它具备: 评论区有不少网友直呼这动作非常厉害。 56个自由度,关键关节支持360°旋转 身高6.2英尺(约1.9米),体重198磅(90公斤) 工作温度区间-20°C到40°C IP67防尘防水 全身只用两种独特规格的执行器,以压低成本和复杂度 一条肢体可以在5分钟内替换完毕 当然了,和中国机器人比起来,还是差了些。 更离谱的是,有消息称,Altas月产量仅4台…… 量产版Altas 在此前放出的视频demo中,Atlas已经在汽车工厂里跑起了搬运流程,而且执行速度相当不错。 根据官方博客,这代量产版的核心设计思想是「功能大于形式」。 与不少竞争对手拼命让机器人看起来像人不同,波士顿动力反而在往「超人类」方向走,头部、腰部、髋关节都能360°旋转,做出人类做不 到的姿势。 正如开头的demo里,Atlas可以用极 ...
AI PPT,这次是真不用返工了
量子位· 2026-05-06 18:02
一水 发自 凹非寺 量子位 | 公众号 QbitAI 过去一两年,AI做PPT这事儿一直处在一个比较尴尬的位置。 能用,但不好用 。 虽然速度是比手搓快,但细看全是"幻觉数据"和"拼凑式模板",后续改起来比从头做还累。 所以圈内有个心照不宣的判断:AI PPT不说是个伪需求,但至少是被高估的需求。 然而进入"龙虾时代"后,这个判断开始松动了 。 起因是,市面上开始出现以多智能体驱动为代表的AI产品了——比如我最近刚刷到的 讯飞智文Vision Agent (以下简称"讯飞智文") 。 抱着试一试的心态,我就随手丢了一句,"做一份伊犁+赛里木湖5天4夜自驾环线实用攻略PPT、公路胶片质感、呼吸感拉满",结果没多久, 17页PPT直接出来。 一看效果,它已经不是套模板那种凑合,而是可以直接拿去用的完整攻略,结构、信息、视觉都在一个专业水准上。 (P.S.测完反手问了五 一去新疆旅游的朋友,回复说攻略基本准确。) 更关键的还是后面这件事 。 同一个工具,我又跑了"龙虾"科普教程、《西方艺术史》期末汇报、AI漫短剧行业研究报告……几种完全不同的应用场景和风格,没想到它都 hold住了。 这就有点意思了。几个case好 ...
量子位编辑作者招聘
量子位· 2026-05-06 18:02
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 岗位面向: 加入我们,你可以获得: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 AI产业方向 岗位职责: 任职要求: AI财经商业方向 岗位职 ...
香蕉和GPT Image之外的第3条路:华人15人团队造出AI生图黑马
量子位· 2026-05-06 15:25
允中 发自 凹非寺 量子位 | 公众号 QbitAI 一支不到15人的团队,把图像模型做到了 全球第三 。 5月6日凌晨,Luma AI正式宣布开放 Uni-1.1 API 。 几乎在同一时间,由第三方机构Arena.ai发布的图像生成榜单,完成了最新一轮的"大洗牌"—— Luma凭UNI-1.1与UNI-1.1-Max直接冲进全球前三,仅次于 OpenAI(gpt-image-2) 和 Google(nano-banana-2) 。 | Lab Rank O C | Lab C | Model Score O ↓ | | Model Rank | | --- | --- | --- | --- | --- | | 1 | OpenAI G gpt-image-2 (medium) · Proprietary | 1398 ±8 | Preliminary | | | 2 | Google G gemini-3.1-flash-image-preview (nano-banana-2) [web-search] · Proprietary | 1268 ±5 | | 2 | | 3 | Luma AI uni ...
OpenAI版“豆包手机”细节曝光!最快一年内量产,预计出货3000万台
量子位· 2026-05-06 13:19
郭铭錤发布最新动态表示,OpenAI智能体手机已进入加速研发模式 。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI版"豆包手机",正在开足马力前进。 他指出,该手机的量产时间,可能从2028年提前到2027年上半年。 郭明錤认为,提速的潜在原因之一,是配合OpenAI年底的IPO计划。 如果进展顺利,这款手机2027-2028年的合计出货量, 将达到约3000万部 。 OpenAI的"豆包手机"是啥样? 这是一部从底层逻辑重新设计的Agent手机。 今年初上市的豆包手机,做的就是类似的事情。 不过,豆包手机的思路,是在现有Android生态上加一层GUI Agent,让AI看懂屏幕、模拟 点击,替用户跨App完成任务。 但OpenAI的设计是,把AI助手从一个App变成手机的操作核心,同时控制硬件和操作系统, 让Agent成为系统本身。 硬件层面,处理器由联发科基于天玑9600深度定制,采用台积电N2P工艺,预计2026年下 半年投产。 这款手机将采用双NPU异构架构,支持视觉理解和语言推理并行运行。 实际工作中,日常轻量任务在本地完成,复杂推理推送至云端。 存储方面,这款手机将采用L ...
李飞飞做AI游戏,拿了4个亿
量子位· 2026-05-06 13:19
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 李飞飞又拿到钱了。 5600万美元。 不是做世界模型的World Labs,是她联创的一家AI游戏公司,叫 Astrocade 。 你可能没听过这个名字。 我第一反应也是,等等,飞飞老师什么时候还搞了个游戏公司? 调研了一下,发现Astrocade想做的事情,其实蛮「常规」的: 任何人,不用写一行代码,用自然语言描述你想要的游戏,几分钟之内就能玩上。 比如这个 硅谷模拟创业游戏 ,就是用他们的产品做出来的。 马斯克、卡帕西、奥特曼……都在里面。 虽然但是,听着像是又一个跟投资人吹水的 AI颠 覆XX 行业 的叙事,对吧? 但这组数据让我闭嘴了,上线8个月,2000万用户,每个月1.4亿次游玩,来自80多个国家的创作者在上面做了几十万个游戏。 钱用来干嘛? 扩团队,加深社区投入。 团队表示,思维实验已经被验证了,现在要猛踩油门。 而在2024年6月,公司同样获得 1200万美元种子轮 融资,投资方包括AME Cloud Ventures、NVIDIA Ventures……以及游戏和科技界的传 奇人物。 这不是demo级别的东西了。这是一个已经跑起来的平台。 ...
刚刚,ChatGPT免费模型升级了:幻觉砍半/记忆更强/回答更简洁
量子位· 2026-05-06 08:08
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT默认模型,今天大升级。 新版本 GPT-5.5 Instant , 结合了5.5的基础智力 + 极速回复。 免费用户也能用 。 最关键的四点: 奥特曼特别强调, 如果你最近都只用深度思考模型了,不妨回来看看 。 第一刀先砍幻觉 作为默认模型,最先要补的是更准确,少编。 与前代相比,GPT-5.5 Instant在事实准确性方面有了显著提高,特别是 医疗、法律和金融等高风险提示 中,产生的虚假陈述减少了 52.5%。 基准测试结果也印证了这一点。在竞争激烈的数学测试AIME 2025中,准确率从65.4%升至81.2%。 在 用户之前已标记为存在事实错误的棘手对话 中,不准确陈述减少了 37.3%。 OpenAI提供了一个代数问题作为示例:用户上传了一张手写方程式的照片,其中包含一个计算错误。 幻觉减少了52.5%。 新增"记忆来源",展示过去的哪条对话影响了本次回复。 答案更简洁:减少不必要的追问、省略多余的表情符号、避免繁复的格式。 更温暖、更自然的语气 GPT-5.3 Instant最初认同用户的解法,随后发现x=3不成立,却错误地得出结 ...
马斯克破大防了:私信求和遭拒,怒喷奥特曼Brockman「全美最恶人」
量子位· 2026-05-05 14:00
henry 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克vsOpenAI两兄弟(奥特曼&Brockman)庭审进入第二周,又爆惊天大瓜。 OpenAI方面消息显示,庭审前两天,马斯克曾给Brockman发短信,提议双方和解,遭B哥拒绝后,直接破大防: 这周结束之前,你和Sam会成为美国最令人憎恶的两个人。如果你执意如此,那就这样吧。 这条多少带点威胁、鱼死网破且私人恩怨的短信,不仅引来了各路吃瓜群众,也让预测市场上马斯克的胜诉率直线下降。 与此同时,OpenAI总裁Greg Brockman也坐上了证人席。庭审上,他首次公开承认:追求报酬,确实是他的小目标之一。 短信内容是这样的,4月25日,马斯克给Brockman发了封短信,信里面先是寻求和解,但Brockman回绝了,然后就有了开头威胁那一出。 OpenAI律师在文件里给这条短信定了两个性。 此外还有几桩老账—— Brockman当年承诺捐给OpenA的10万美元早已没影儿,早期募资时还频繁挂马斯克的名字给自己背书…… 可以说,一时间瓜多到让人眼花缭乱,但精彩的还在后面,因为最能说会道的那位,还没上场呢。 Sam,你说是吧? 短信里说了啥? 先 ...