Workflow
量子位
icon
搜索文档
另一位Yao Shunyu也跳槽了:与Anthropic价值观有根本分歧
量子位· 2025-10-08 12:25
核心人事变动 - 谷歌DeepMind迎来新研究科学家姚顺宇,其于10月19日正式加入,担任高级研究科学家,继续从事AI研究 [1] - 姚顺宇于9月19日离开Anthropic,结束了在该公司为期1年的工作 [1] 个人背景与成就 - 姚顺宇为清华大学物理系校友、清华本科特等奖学金获得者,本科时期即在顶级期刊《Physical Review Letters》发表论文 [1][29] - 其在凝聚态物理领域有突破性贡献,2018年首次在国际上给出了关于非厄米系统的拓扑能带理论,并定义了两个新的物理概念 [31][32] - 个人学术影响力显著,谷歌学术显示其论文被引用5020次,h-index为14,i10-index为15 [34] 职业转型动机 - 从理论物理转向AI研究,主要因理论物理领域已多年没有新的实验,难以客观判断理论工作的重要性 [10][11] - 在AI和量子计算之间选择AI,因AI是“有趣的类似物理学的研究”,且量子计算存在实验平台瓶颈 [12][13] - 认为当前大模型研究处于类似17世纪热力学的混沌时代,“不懂原理但能持续找到规律”,对此状态感到熟悉和享受 [14][15][16] 在Anthropic的工作经历 - 在Anthropic工作1年,参与组建了公司的强化学习基础团队,并负责了Claude 3.7 Sonnet框架以及Claude 4系列背后的基本强化学习理论 [1][6] - 其研究能立刻对前沿模型能力产生影响,并见证人们与AI的交互方式随新功能出现而变化,反馈迅速,与物理学研究不同 [18][19] - 感受到Anthropic的工作强度“超级忙”,导致其无暇撰写个人心路历程 [7] 离开Anthropic的原因 - 40%原因为“价值观的根本分歧”,指出Anthropic的一些态度对中国科研者乃至中立立场的员工来说极不友好,个人无法接受 [21][22][23] - 剩余60%原因涉及公司内部细节,未对外公开 [24] 行业动态与观察 - AI领域发展速度惊人,姚顺宇感慨在1年时间内,Claude模型版本已从3.7迭代到4.5 [27] - 尽管已离开,仍评价Anthropic是物理背景PhD转行AI研究的最佳去处之一,因公司对物理背景人才有偏好 [37][38] - 指出Anthropic的核心研究员现已不再撰写论文 [39] 其他相关人才流动 - 提及另一位清华同届校友“姚顺雨”(计算机背景,姚班),其同样在待了1年后于今年8月底、9月初离开OpenAI [43][44][45] - 两位Shunyu Yao先后入场大模型,又先后跳槽,开启工作新旅程 [47][48][49]
2025诺贝尔物理学奖颁给了谷歌量子计算机打造者
量子位· 2025-10-07 18:55
2025年诺贝尔物理学奖获奖者及其核心贡献 - 奖项授予量子力学领域的三位科学家John Clarke、Michel H. Devoret和John M. Martinis,以表彰他们在电路中发现的宏观量子力学隧穿效应和能量量子化现象 [1] John Clarke的成就与贡献 - 主要研究方向涉及超导性和超导电子学,特别是低温物理和超导电子学领域 [4] - 最为人知的贡献是发明和改进了超导量子干涉仪(SQUID),该仪器被誉为“磁学领域的游标卡尺”,可应用于凝聚态物理、地球物理学、天体物理学、宇宙学、医学物理等领域 [4] - 曾被评为加州年度科学家,并获得弗里茨·伦敦奖、约瑟夫·F·基思利测量科学进步奖、康斯托克物理学奖、英国皇家学会休斯奖章等多项荣誉 [11][12][13] - 2021年凭借在超导量子电路与量子比特早期关键技术方面的引领作用,与他人共同荣获“墨子量子奖” [15] Michel H. Devoret的成就与贡献 - 研究领域集中在凝聚态物理与量子信息交叉的前沿,被誉为“量子电子学(Quantronics)”的奠基人之一 [16] - 长期致力于理解超导电路中量子非平衡物理的基本机制,并探索其在量子计算与量子传感等领域的应用 [18] - 是超导量子比特技术的重要开拓者之一,曾获得美国国家科学院康斯托克物理学奖(2024)、墨子量子奖(2022)、Olli V. Lounasmaa纪念奖(2016)、菲列兹·伦敦纪念奖(2014)等顶级科学奖项 [19] - 于2003年当选美国艺术与科学院院士、2007年当选法国科学院院士,并在2007年至2012年间担任法兰西学院教授 [19] John M. Martinis的成就与贡献 - 博士期间研究了约瑟夫森结中相位差这一宏观变量的量子行为,首次证明了宏观电路系统可以表现出量子隧穿与能级离散化等量子特征,这也是其获得诺贝尔奖的核心贡献 [20] - 在NIST期间开发了基于超导转变边缘传感器(TES)的微量热计技术,实现了高精度X射线探测 [23] - 自2002年以来将研究重点转向基于约瑟夫森结的量子比特,立志构建世界上第一台实用的量子计算机 [23] - 2019年10月23日与团队在《Nature》发表划时代论文,首次通过一台拥有53个量子比特的处理器实现了“量子霸权”,在计算速度上超越了当时世界上最强的经典超级计算机 [24] - 曾担任谷歌AI量子实验室的量子硬件首席科学家,后加入澳大利亚初创公司Silicon Quantum Computing,并共同创立公司Qolab担任CTO [3][26] - 在其职业生涯中多次获得国际物理界的重要奖项,包括2021年的约翰·斯图尔特·贝尔奖 [28]
ChatGPT内嵌App!OpenAI开发者日全览,Agent工具链+应用生态+模型API多箭齐发
量子位· 2025-10-07 12:43
ChatGPT应用生态集成 - ChatGPT现已集成Booking com、Canva、Coursera、Expedia、Figma、Spotify、Zillow等应用,用户可通过在对话框中输入应用名直接调用[13] - 应用能自然融入对话,ChatGPT会根据用户需求主动推荐应用,并具备交互式界面以适配聊天语境[14] - 公司预告今年年底还将有11家合作伙伴的应用上线,并为用户推出专门的浏览和搜索目录[16][19] Apps SDK开发者工具 - 公司推出基于MCP开放标准构建的Apps SDK,开发者可借此构建和测试App,应用能在任何采用该标准的环境中运行[18][20][21] - Apps SDK已开源,支持开发者自定义应用界面与交互逻辑,并扩展了ChatGPT连接外部工具与数据的能力[20][21] - 开发者可参考官方指南和应用示例进行构建,并使用ChatGPT的开发者模式进行测试,应用提交、审核与发布及盈利细节将于今年晚些时候公布[18][22] AgentKit智能体开发工具 - AgentKit是一套包含Agent Builder、Connector Registry、ChatKit等模块的完整工具集,帮助开发者高效构建、部署和优化智能体[7][23][24] - Agent Builder提供可视化画布,通过拖放节点组合业务逻辑,支持连接各种工具和配置安全规则,OpenAI研究员演示在8分钟内为官网构建Agent[4][5][25] - Connector Registry是集中式管理平台,内置Dropbox、Google Drive等预置连接器,ChatKit让开发者能轻松将聊天智能体嵌入自有产品或网站[27] Codex编程工具升级 - AI编程神器Codex正式发布,推出Slack集成功能,团队成员可在Slack中直接@Codex委派任务,Codex能自动获取上下文并回复任务链接[29] - 推出Codex SDK,开发者可用几行代码将智能体嵌入工作流,SDK提供结构化输出和上下文管理,现支持TypeScript并集成GitHub Action[29] - 全新管理工具允许管理员编辑Codex云环境、设置安全默认值并通过仪表板监控使用情况,部分功能对ChatGPT Business、Edu和Enterprise计划可用[31][33] 模型API开放与定价 - 开放GPT-5 Pro的API调用,定价为每100万tokens输入15美元、输出120美元,同时推出更小更便宜的语音模型GPT-Realtime-Mini,价格低70%[34][35][38] - Sora 2预览版通过API提供,支持音视频同步生成并可控制视频时长、宽高比、分辨率[40] - 在原有Evals功能基础上新增四项能力:从零构建测试数据集、端到端轨迹评分、自动提示词优化及支持第三方模型评估[30]
2025人工智能年度评选启动!3大维度5类奖项,正在寻找AI+时代领航者
量子位· 2025-10-07 12:43
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 这是量子位人工智能年度榜单的 第8年 。八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批又一批推动时代前行 的企业、人物与产品。 在人工智能重新定义一切的时代里,智能技术已不再是单一工具,而是产业与社会协同进化的驱动力。我们期待通过这场年度评选,去发现 并致敬那些真正引领变革、开拓边界的探索者与实践者。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人工智能领域创新创业力量,将评选出最具投资价值和发展潜力的AI创业公司, 参选条件 : 评选标准 : 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 2025 人工智能年度 领航企业 2025 ...
OpenAI拿下10%股权,AMD一夜暴涨634亿美元
量子位· 2025-10-07 12:43
合作核心内容 - OpenAI承诺在未来数年内部署总计6GW的AMD GPU算力,首批1GW部署计划于2026年下半年启动[2][9][10] - AMD向OpenAI发行认股权证,允许其以每股0.01美元的价格购买最多1.6亿股AMD普通股[3][11][12] - 若OpenAI全额行权,将持有AMD约10%的股权,成为重要股东[5][15] 合作执行细节 - 认股权证的行权与算力部署进度及技术商业里程碑挂钩,首批权证在首个1GW部署完成后生效[13] - 部分认股权证的行权条件与AMD股价达到特定目标(如600美元)相关联,合作公布前AMD收盘价为164.67美元[14] 市场与财务影响 - 合作消息公布后,AMD市值从约2672亿美元暴涨634亿美元至3306亿美元,并持续上涨超过3400亿美元[6][24] - 按AMD 3400亿美元市值计算,OpenAI相当于以160万美元成本获得价值340亿美元的股权[6] - AMD股价在消息公布后盘前飙升近25%,最高触及近207美元,而英伟达股价同期下跌逾1%[24][26] 战略意义与行业影响 - 合作有助于OpenAI降低对英伟达的单一供应商依赖,保障算力供应链安全与稳定[17][18][19] - 对AMD而言,合作带来大规模订单和预计数百亿美元收入,有助于其在AI芯片市场抢占更多份额[21] - 此次合作被视为AI算力市场发展的关键节点,OpenAI同时也在与高通洽谈为下一代模型打造定制芯片[26]
亚马逊“盲眼”机器人30秒跑酷首秀惊艳!华人学者领衔
量子位· 2025-10-06 13:42
核心技术:OmniRetarget方法 - 亚马逊机器人团队FAR发布首个足式人形机器人研究成果OmniRetarget,该技术使机器人在完全无摄像头、雷达等感知单元的情况下完成搬动9斤重椅子、攀爬1米高桌台等高难度动作[1][9] - OmniRetarget是一个开源数据生成引擎,通过交互网格建模机器人、物体和地形间的空间接触关系,将人类演示转化为高质量运动学参考,实现从仿真到人形机器人的零样本迁移[11][12][14] - 与PHC、GMR等基线方法相比,OmniRetarget在硬约束、物体交互、地形交互等关键指标上全面领先,尤其在防止脚部打滑(最大速度0 cm/s)和减少物体穿透(最大深度1.34cm)方面表现突出[15][40] 技术创新细节 - 交互网格通过德劳内四面体化构建,以拉普拉斯形变能最小化为优化目标,保留原始交互的空间结构和接触关系,适配不同机器人形态时仅需调整关键点对应关系[18][20][21][24] - 通过参数化改变物体配置、形状或地形特征,将单个人类演示转化为多样化数据集,完整增强数据集训练的成功率达79.1%,与标称动作的82.2%相近[27][38] - 强化学习策略仅依赖本体感知和参考轨迹,结合五类奖励(身体跟踪、动作速率等)和领域随机化,实现高保真动作跟踪且无需繁琐参数调整[29][30][33] 性能表现与行业影响 - 在30秒连续任务中,搭载OmniRetarget的宇树G1机器人完成多阶段跑酷动作,下游强化学习策略成功率在机器人-物体交互任务中达82.2%,在机器人-地形交互任务中达94.73%[37][38][40] - 该技术由成立仅七个多月的亚马逊FAR团队开发,团队核心成员来自知名机器人公司Covariant,由华人学者Rocky Duan领导,标志着亚马逊在足式人形机器人领域的首次突破[42][46][47][48]
Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”
量子位· 2025-10-06 13:42
技术突破核心 - 字节与UCLA联合提出Self-Forcing++方法,实现分钟级长视频生成,最长可达4分15秒,相比行业主流5-10秒视频生成长度提升近50倍[1][2][28] - 该方法无需更换模型架构或重新收集长视频数据集,通过自回归生成技术抑制后期画质劣化,避免传统扩散模型因误差积累导致的画面崩坏问题[1][10][11] - 生成视频在视觉稳定性、动态程度等关键指标上大幅领先现有SOTA模型,如SkyReels、CausVid等,且全程保持高保真度与运动连贯性[5][24][27] 技术实现原理 - 采用反向噪声初始化技术,让学生模型生成100秒干净帧序列后重新注入噪声,扩展分布匹配蒸馏通过随机抽取5秒窗口计算KL散度来最小化师生模型差异[13] - 引入滚动KV缓存机制,在训练与推理阶段生成远超教师监督时长的序列,结合组相对策略优化(GRPO)以光流连续性为代理指标减少画面突变[14][17] - 使用Gemini-2.5-Pro作为评估工具,按过曝光、误差积累等维度评分(0-100分),替代传统VBench基准,更精准衡量长视频视觉稳定性[18] 性能对比数据 - 短时长(5秒)生成中,Self-Forcing++语义得分80.37、总得分83.11,接近Wan2.1的84.67,显示其未专门训练仍保持高质量[22][23] - 中长时长(50秒)生成时,视觉稳定性得分90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度为后者的1.6倍[24] - 极长时长(75-100秒)生成中,文本对齐得分26.04,动态程度54.12,较CausVid提升6.67%和56.4%,视觉稳定性达84.22,为Self-Forcing的2.6倍[25][26] 行业影响 - 当前主流AI视频模型(如Sora2、腾讯混元、谷歌Veo)均受限于5-10秒时长,长视频生成技术瓶颈被突破可能加速AI电影等应用落地[6][9] - 该方法在1.3B参数量下实现17 FPS吞吐量,与部分基准模型相当,显示其在计算效率与生成质量间的平衡潜力[25]
重生之在《我的世界》做山姆·奥特曼:网友在线手搓ChatGPT
量子位· 2025-10-06 13:42
技术实现突破 - 在《我的世界》游戏中利用红石电路(0/1)和存储单元成功构建了一个功能完整的ChatGPT模型,未使用指令集[6] - 该模型具备完整的神经网络架构,包括词嵌入、位置编码、归一化、矩阵乘法、多头注意力、KV cache、激活函数(ReLU)等组件,共6层和5个注意力头[14][18] - 模型拥有5087280个参数(约500万),嵌入维度为240,词汇量为1920个token,上下文窗口大小为64个token[16][18][19] 模型性能与规格 - 当使用Minecraft高性能红石服务器将tick速率提升约40000倍时,模型大约需要2小时才能生成一个回复[20] - 模型大部分权重被量化到8位,但嵌入层和LayerNorm的权重分别以18位和24位存储[21] - 整个建筑占据1020×260×1656方块的体积,在Python中使用TinyChat数据集进行训练[16][22] 构建方法论 - 构建流程包括:在本地训练小型GPT并压缩权重至低精度,将计算方法翻译成红石编码,定义可复用电路模块,编写编译器脚本映射模型,最后借助工具批量铺设完成搭建[25][26][27][28][29] - 聊天信息通过红石信号传输,时钟脉冲推动信号穿过电路,最终通过命令块、告示牌或灯光生成输出[30] 红石电路技术基础 - 红石电路基于数字逻辑原理,每个信号只有通电(1)和不通电(0)两种状态,对应现实中的二进制系统[33][34] - 玩家可利用红石信号构建与门、或门、非门等逻辑门,进一步组合成加法器、计数器甚至简单CPU,实现完整的运算系统[35] 《我的世界》生态创新 - 社区已在游戏中实现多种计算系统,包括卷积神经网络识别数字、可玩多种游戏的CPU、图形渲染、互联网模拟甚至游戏内套娃《我的世界》[37][39][41][44][46] - 该案例表明《我的世界》平台已具备运行复杂AI模型的能力,实现了在游戏环境中运行GPT的技术突破[48]
刚刚,全球AI生图新王诞生!腾讯混元图像3.0登顶了
量子位· 2025-10-05 13:43
文章核心观点 - 腾讯混元图像3 0模型在LMArena文生图竞技场榜单中位列全球第一,超越了谷歌、字节跳动和OpenAI等公司的模型[1][7] - 该模型是业界首个开源的工业级原生多模态生图模型,参数规模高达800亿,展现了公司在AI领域的厚积薄发[10][13] - 模型采用创新的广义因果注意力和二维位置编码等技术,实现了文本和图像的统一理解与生成,在多项评测中媲美甚至超越行业顶尖闭源模型[12][40][63][65] 模型性能与排名 - 在LMArena文生图榜单中,腾讯混元图像3 0以1167分的成绩排名第一,谷歌Gemini 2 5 Flash Image Preview以1151分位列第二[1] - 该榜单由美国加州大学伯克利分校推出,采用基于人类真实偏好的盲测机制,累计总投票数达3,159,029次,被公认为国际权威的AI模型竞技场[4][5][6] - 模型在人工评测GSB中相较于Seedream 4 0胜率为1 17%,相较于Nano Banana胜率为2 64%,相较于GPT Image胜率为5 00%[65] 技术架构创新 - 模型采用原生多模态架构,能够通过单一模型处理文字、图片、视频与音频等多种模态的输入与输出,无需依赖多个组合模型[12][17] - 引入广义因果注意力机制,有效整合了文本的自回归生成特性和图像的全局上下文捕捉能力[41][42] - 实现广义二维RoPE位置编码,确保与预训练语言模型的向后兼容性,同时支持图像tokens的二维位置处理[46][48] - 创新自动分辨率预测功能,模型可根据上下文自动决定合适的图像形状,无需用户确定性输入[50][51] 模型能力展示 - 模型具备强大的语义理解能力,能够响应复杂长文本并利用世界知识进行推理,例如生成中秋节海报、十二生肖表情包等创意内容[19][22][24] - 可处理复杂概念和场景生成,如“林黛玉大战孙悟空”、完全由火焰构成的猫咪以及具有高级艺术感的香水广告大片[25][28][31][33] - 支持多任务处理,包括解方程并展示计算过程、生成复古票券拼贴画以及科技感和人物特写图像,细节处理精细[68][70][72][74] 数据构建与训练策略 - 采用三阶段过滤流程从超过100亿张原始图像中筛选出近50亿张高质量、多样化图像用于训练[53] - 构建中英双语、分层级的描述体系,并集成OCR和命名实体识别代理来保证描述的真实性[55] - 预训练过程分为四个渐进式阶段,数据从粗到精筛选,VAE编码器图像分辨率逐步提高,并引入思维链生图任务[56][59] - 通过SFT、DPO、MixGRPO、SRPO和ReDA等多阶段后训练优化模型,提升图像真实感与清晰度[59][60] 行业发展与影响 - 文生图领域正从传统DiT架构转向原生多模态模型架构,混元图像3 0的开源为行业提供了新的技术路径[16] - 模型登顶权威榜单标志着公司在AI生成式模型领域已达到全球领先水平,对行业竞争格局产生重要影响[1][67] - 模型开源发布可促进AI社区发展,开源仓库和Hugging Face平台已开放访问,助力行业技术普及与创新[78]
推理token减少46%!Meta新方法缩短思维链,告别重复推导
量子位· 2025-10-05 13:43
文章核心观点 - Meta、Mila-Quebec AI Institute、蒙特利尔大学和普林斯顿大学联合提出“元认知复用”机制,旨在解决大模型在复杂任务推理中重复步骤导致思维链过长的问题 [1] - 该机制让模型回顾并总结解题思路,将常用推理套路提炼为简洁的“行为”并存储于“行为手册”中,供后续类似问题直接调用,从而提升推理效率 [2] - 实验表明,该机制在保持准确率不变的前提下,最多可减少46%的推理token使用量,在数学基准测试中实现了显著优化 [3] 元认知复用机制的原理与构建 - 核心问题是大型语言模型采用思维链解决复杂任务时,每次遇到新问题都需重复推导通用子步骤,导致token用量膨胀、推理延迟增加并占用上下文窗口 [6][7] - 现有记忆系统(如RAG)仅存储陈述性知识,缺乏对“如何思考”的程序性知识复用机制,无法解决重复推理的低效问题 [7] - 元认知复用机制让模型先尝试解决问题,随后回顾整个推理过程,识别可复用的步骤并将其转化为一组标准化的“行为”——即带有规范名称的简短可执行指令 [8] - 这些“行为”被收录进可检索的“行为手册”,既能在测试阶段通过上下文提示直接调用,也可通过监督微调内化为模型的固有能力 [9] - “行为”构建流程中,模型扮演三种角色:元认知策略器(负责从自身推理轨迹中提取行为)、教师(负责生成监督微调训练数据)、学生(其推理过程可通过行为辅助) [11][13] - 具体提取步骤:元认知策略器首先生成包含推理轨迹的解决方案;随后将问题-解答对再次输入以生成反思,评估逻辑与正确性并提炼新行为;最后通过查询将问题、解答和反思转化为“行为条目”加入手册 [14][15] 机制的应用场景与实验效果 - **行为条件推理(BCI)**:在MATH和AIME-24/25数据集上测试,使用DeepSeek-R1-Distill-Llama-70B和Qwen3-32B作为学生模型,该方法能在使用更少token的情况下达到与基线相当或更优的性能 [16][17][19] - **行为引导的自我改进**:让R1-Llama-70B模型对自身的初步推理轨迹进行批判并修正,实现自我改进,即使不更新参数,也能借助过往提取的行为模式优化推理效果,相比基线方法可将准确率最多提升10% [21] - **行为条件监督微调(BC-SFT)**:旨在将高质量行为融入模型参数,使用R1-Llama-70B作为元认知策略器和教师模型,对Qwen2.5-14B等多款学生模型进行微调 [23] - BC-SFT能更有效地将不具备推理能力的模型转化为具备推理能力的模型,与常规监督微调相比,不仅在token使用上更高效,且几乎在所有情况下准确率都高于基线模型 [24][25]