量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-08-26 12:36

核心人才流失 - Meta强化学习专家Rishabh Agarwal离职其曾参与Gemini 1[4]5和Gemma 2等核心项目开发论文总引用量达10[6]392次 h-index为34[6] 2021年获得NeurIPS杰出论文奖[4][14] - 另一名任职12年的Meta资深员工同期离职并加入竞争对手Anthropic推理团队[18][19] - 离职潮可能与新老员工薪酬待遇悬殊引发的内部矛盾相关部分研究人员曾威胁辞职[23][24] 技术贡献与行业影响 - Rishabh Agarwal在Meta期间主导推理模型后训练工作具体包括采用RL规模化训练将8B稠密模型性能提升至接近DeepSeek-R1水平在训练中引入合成数据实现RL热启动提出高效on-policy蒸馏方法[16][20] - 其2021年发表的深度强化学习统计不稳定性论文成为评估RL算法的里程碑工作[14] - 曾作为核心贡献者参与谷歌Gemini 1[4]5（上下文突破100万token）和Gemma 2（轻量级开源模型）开发[4][13] 人才流动趋势 - Meta近期组建超级智能实验室并大量引进人才但同期出现资深技术骨干流失现象[1][22] - 高端AI人才更倾向选择创业或探索非传统技术路径 Rishabh Agarwal明确表示拒绝加入Meta新实验室并寻求"完全不同道路"[1][17] - 行业顶尖人才普遍具备跨机构任职背景 Rishabh Agarwal曾同时任职谷歌Brain[6]DeepMind[6]Meta[1]并兼任麦吉尔大学教授[13]

物理学又一乌云消散，希格斯玻色子衰变为μ子新证据出现，或超越标准模型

量子位· 2025-08-26 12:36

希格斯玻色子衰变新发现 - ATLAS团队发现希格斯玻色子衰变为μ子（H→μμ）的有力证据，观测显著性达3.4个标准差（统计波动可能性低于三千分之一）[1][8][13][14] - 该衰变过程极其罕见，约每5000次希格斯衰变中发生1次，为研究希格斯与第二代费米子相互作用提供关键机会[9][10] - 团队通过结合LHC的Run-2和Run-3数据集，并开发复杂背景建模与事件分类技术实现突破[12][13] 衰变过程探测灵敏度提升 - ATLAS同步提升希格斯玻色子衰变为Z玻色子和光子（H→Zγ）的探测灵敏度，观测过剩达2.5个标准差[3][19] - H→Zγ为稀有衰变过程，Z玻色子仅约6%时间衰变为可探测轻子，且LHC Run-3的复杂条件（如粒子堆叠）增加识别难度[18] - 该结果提供了迄今测量H→Zγ衰变分支比的最严格预期灵敏度[19] 科学意义与潜在突破 - 两项发现可能揭示超越标准模型的物理规律，统计上初步出现偏离标准模型预言的迹象[6][7][40] - 研究成果依赖于LHC提供的大量数据，探测难度被比喻为"大海捞针"[4][5] - 未来ATLAS将继续探索新物理规律，推动粒子物理学前沿发展[41] 希格斯玻色子背景知识 - 希格斯玻色子又名"上帝粒子"，为自旋为零的不稳定玻色子，2013年被正式确认发现[23][24][25][33] - 其代表希格斯场的振动，该量子场通过希格斯机制赋予W/Z玻色子及费米子质量[34][35] - 标准模型描述强力、弱力、电磁力及基本粒子，希格斯玻色子通过对称性破缺机制赋予其他粒子质量[37][39]

视觉Token注入CLIP语义，走向多模态理解与生成新范式

量子位· 2025-08-26 12:36

核心技术创新 - 提出全新视觉分词器TokLIP 将低级离散视觉Token与高级CLIP语义结合实现多模态理解与生成的高效统一 [1][2] - 通过语义化VQ token注入CLIP级别语义使每个离散token同时携带底层结构信息和高层语义信息 [13][14][15] - 采用视觉tokenizer与ViT-based token encoder结合架构通过蒸馏和对比学习损失优化模型 [17][18] 性能优势 - 训练数据量仅需同类方法的20% 在多项任务中达到SOTA性能 [3][24] - TokLIP-B版本在ImageNet分类达到76.4% Top1准确率超越VILA-U的73.3%和QLIP的74.3% [23][27] - 在COCO检索任务中 TR@1达到64.06% IR@1达到48.46% 显著优于同类方法 [27] - TokLIP-L版本在384分辨率下实现80.0% ImageNet分类准确率超越QLIP的79.1% [27] 架构设计特点 - 使用Causal Token encoder保证自回归生成过程无信息泄漏 [19] - 采用Freeze VQGAN设计保留生成能力支持框架灵活替换 [26] - 继承预训练CLIP权重在相同算力下更快收敛训练pipeline更简洁高效 [26] - 无需专门重构损失保证token可逆性避免训练冲突并降低复杂度 [26] 多模态任务表现 - 在7个下游多模态理解任务中展现竞争力 MLLM问答与推理更准确 [28] - TokLIP-L在MMB任务达到76.9% 显著优于Emu3-Chat的58.5%和VILA-U的60.8% [29] - TokLIP-XL在MMMU任务达到47.1% 超越TokenFlow-XL的38.7% [29] - 自回归图像生成任务FID指标显著改善 384分辨率下从14.48降至12.37 [30][31] 应用前景 - 可无缝接入现有LLM框架极大降低多模态模型计算与数据门槛 [3][20] - 为构建下一代多模态通用模型提供重要基础组件 [3][32] - 支持端到端自回归训练实现理解与生成能力的统一 [3][7][12]

最新智能体自动操作手机电脑，10个榜单开源SOTA全拿下｜通义实验室

量子位· 2025-08-26 07:05

核心观点 - 通义实验室推出Mobile-Agent-v3智能体框架在手机端和电脑端多个核心榜单取得开源最佳性能实现自动化操作手机和电脑的突破性进展 [1][2] - 该框架通过图形交互基础模型(GUI-Owl)实现界面元素精准定位、复杂任务规划和多智能体协同在10个主流GUI榜单中均取得开源SOTA水平 [9][17] - 采用自我进化轨迹生产基建和强化学习算法构建自动化数据生产闭环在OSWorld动态环境中成功率提升近8个百分点 [11][31][36] 技术架构 - 基于阿里云跨平台云环境基础设施构建覆盖Android/Ubuntu/macOS/Windows的云端沙箱执行环境 [11] - 通过Self-Evolving GUI Trajectory Production系统实现数据采集与模型优化自动化闭环包括高质量任务生成、轨迹正确性判断和任务指南生成模块 [13][14] - 采用轨迹感知相对策略优化(TRPO)算法解决稀疏奖励和信用分配难题在OSWorld-Verified基准测试中成功率从27.1%提升至34.9% [31] 核心能力 - 精准界面元素定位：整合开源数据集和无障碍树数据合成采用SAM模型进行PC端密集定位过滤IoU低于0.5的噪声框 [19] - 细粒度文字定位：支持单词和单字符级精确定位可响应"点击第三段第二行的'提交'二字"类指令 [20] - 复杂任务规划：从历史轨迹提炼执行手册通过Qwen3-235B等大语言模型生成详细执行计划 [22][23] - 动作语义理解：构建操作前后截图对建立视觉差异到用户行为的因果映射能力 [24][25] 多智能体协同 - Mobile-Agent-v3框架包含Manager、Worker、Reflector和Notetaker四个智能体角色均由同一GUI-Owl模型扮演 [33] - 形成拆解→执行→检查→记录→调整→再执行的闭环自动化流水线在真实环境评测中带来7-8个百分点性能提升 [34][40] - 支持知识检索(RAG)、任务规划、子任务执行与反思推理等完整功能链 [33] 性能表现 - GUI-Owl-32B在Easy/Medium/Hard三个难度级别的综合得分分别为92.75%/91.74%/94.19% 全面超越GPT-4o(60.16%/57.24%/53.49%)和Claude-3.5(41.54%/41.26%/37.55%) [37] - 在跨平台评测中 GUI-Owl-32B在Windows/MacOS/Linux/iOS/Android/Web平台综合得分82.97% 显著领先InternVL3-72B(72.20%)和Qwen2.5-VL-72B(41.83%) [38] - 在细粒度操作任务中 GUI-Owl-32B在文本匹配(67.0%)、元素识别(64.5%)、布局理解(67.2%)等维度表现优异 [39] - Mobile-Agent-v3在OSWorld-Verified和AndroidWorld基准测试中分别达到37.7%和73.3%的得分超越同类开源模型 [41]

售价2万5！英伟达推出机器人“最强大脑”：AI算力飙升750%配128GB大内存，宇树已经用上了

量子位· 2025-08-26 07:05

产品发布与性能参数 - 英伟达推出全新机器人计算平台Jetson Thor 基于Blackwell GPU架构 AI算力达2070 TFLOPS 较上一代Jetson Orin提升7.5倍能效提升3.5倍 [1] - 配备128GB LPDDR5X内存显存带宽273GB/s 在边缘计算设备中属前所未有配置 [2][13] - 支持多实例GPU技术最高配置2560核GPU及96个第五代Tensor Core 精简版T4000配置1536核GPU及64个Tensor Core [11][13] - 功耗范围40-130W 支持移动平台到固定式机器人的多样化热设计 [13] - 开发者套件美国售价3499美元 T5000模组批量采购单价2999美元 [8][9] 技术特性与创新 - 通过FP4量化和推测解码技术部分模型性能可再提升2倍 [15] - 响应速度达200毫秒内生成首个token 每秒生成超25个token 支撑实时人机对话 [16] - 支持多路4K/8K视频编解码最多4个25GbE网络接口实现多传感器数据超低延迟直传GPU内存 [13][22] - 原生集成NVIDIA Isaac仿真开发平台 Isaac GR00T人形机器人基础模型 Metropolis视觉AI及Holoscan传感器工作流 [14] 生态系统与合作 - 全球首批集成企业包括联影医疗万集科技优必选银河通用宇树科技等中国公司以及波士顿动力 Agility Robotics等国际企业 [19][20][21] - 研华科技米文动力天准科技等正开发量产级Jetson Thor系统亚德诺半导体 e-con Systems等提供传感器支持 [18] - 宇树科技反馈平台带来计算能力飞跃银河通用机器人运动速度和流畅性显著提升 [19] 战略意义与行业影响 - 被定位为"机器人大脑" 与训练AI的DGX系统测试AI的Omniverse平台构成物理AI三大计算支柱 [23] - 推动物理AI与通用机器人时代到来支持构建可与物理世界交互的机器人系统 [3][4] - 支持所有主流生成式AI框架包括Qwen DeepSeek等语言模型及视觉语言动作模型 [6] - 采用持续循环的开发模式：训练-仿真-部署即使机器人部署后仍持续升级能力 [24][25]

量子位· 2025-08-25 23:47

多模态大模型评估挑战 - 现有基准测试因预训练数据污染面临评估失效风险，需开发动态评估方法应对顶尖AI能力评估困境 [1] MAC动态基准设计理念 - 采用顶级学术期刊封面作为测试素材，利用科学前沿内容的持续演进特性构建动态评估基准 [3] - 覆盖188种顶级期刊，从25,000+图文对构建测试集，聚焦艺术化视觉元素与科学概念的深层关联理解 [3] - 通过年度更新机制（如MAC-2025涵盖2024年1月至2025年2月内容）减少数据污染，保持评估挑战性 [16] 测试任务设计与语义陷阱 - 设计看图选文（Image2Text）和看文选图（Text2Image）双任务评估跨模态理解能力 [17] - 采用CLIP等嵌入模型生成语义干扰项，要求模型区分表面相似但科学概念不同的选项（如"癌症耐药性机制"vs"癌症产生机理"） [8][16] 多模态模型性能表现 - 顶尖模型表现显著低于常规基准：Step-3最高准确率79.1%，GPT-4o准确率74.3-75.1%，Gemini-1.5-Pro准确率70.4-72.8% [4][18] - 开源模型Qwen2.5-VL-7B准确率仅56.8-61.0%，显示与闭源模型存在明显差距 [4][18] - 模型普遍存在视觉识别与科学概念理解脱节问题，能识别"药丸""处方单"但无法关联"耐药性"核心概念 [16][19] DAD分步推理解决方案 - 提出描述-推理两阶段方法：先由多模态模型生成视觉描述，再由语言模型进行高层分析 [22][23] - 该方法显著提升模型准确率，模拟人类专家先观察后分析的思维过程 [22] 动态基准双机制验证 - 动态数据机制：所有模型在最新数据（MAC-2025）表现均差于早期数据（MAC-Old），证实新知识自然提升测试难度 [26] - 动态问题构建：采用更强嵌入模型（如SigLip2）重构干扰项后，所有模型准确率进一步下降，证明测试难度可与AI技术同步进化 [27] 学术影响与未来发展 - 研究成果将于2025年语言模型大会（COLM）发表 [5] - 计划扩展至更多科学期刊、学术会议论文及科学新闻，构建持续演进的评估平台 [27][28]

量子位· 2025-08-25 23:47

AI编程三层结构框架 - Karpathy提出AI编程的三层递进结构将编程任务按复杂度和工具特性分为三个层级进行分配[1][3] - 第一层使用Cursor处理约75%的常见情况通过Tab键自动补全代码和小范围修改[9] - 第二层使用Claude Code/Codex实现较大功能块特别适用于开发者不熟悉的领域如Rust和SQL语句[14][16] - 第三层使用GPT-5 Pro解决最棘手问题如复杂bug修复和深度文档研究[4][20] 工具配置与使用策略 - Cursor支持配置多模型包括claude-3.5-sonnet、gpt-40、gpt-5等主流AI编程模型[15] - 采用"顺境Cursor 逆境Claude/Codex 绝境GPT-5 Pro"的分层调用策略[6][7] - 通过代码片段或注释实现高带宽沟通比文字描述更高效传递任务意图[11][12] 当前AI编程工具的局限性 - 模型容易跑偏需要频繁终止任务不适合全面托管模式(YOLO模式)[16] - 生成代码存在质量问题包括滥用try/catch 代码膨胀重复代码块等问题[17] - 缺乏解释性和交互性工具更倾向于写代码而非解释代码逻辑[18][19] 开发者实践经验 - 网友使用统计显示约80%为自动补全 18-19%为功能添加很少用于bug修复和重构[28] - 零样本新功能生成效果不稳定通常需要大量清理工作[28] - 全自主模式表现最差需要高度监督才能产出有用结果[28] 社区反馈与优化建议 - 开发者建议提供详细需求说明和功能拆解附验收标准确保代码一致性[31] - 推荐采用增量式开发流程：需求分析-思路生成-代码实现-复查测试的循环[25] - 模型间切换已成为一门艺术不同模型针对特定任务表现差异显著[29]

AI视频生成新品实测：这怎么不算影院级呢？

量子位· 2025-08-25 23:47

模型性能表现 - 作为全球首个中文音视频一体化生成的I2V模型，在中文语音和口型同步方面表现自然[3][6] - 升级版本擅长复杂运镜和镜头叙事能力，画质进一步提升[7] - 视频生成精细度较高，生成视频大小达20.8M，比对比产品3M大很多[18] 功能应用场景 - 仅用1张图片和1段提示词即可生成带音效的视频，例如猫呼噜声和虫子叫声[4] - 支持宠物动态写真生成，使照片自然动起来[20][29] - 支持创意实现如让林黛玉念《葬花吟》或麦当劳叔叔推荐肯德基[34] - 提供5秒和10秒两种视频长度选择[47] 语义理解能力 - 对提示词中部分内容如"奔跑"和"黄蝴蝶"存在理解忽略现象[15][45] - 对情绪把控有待提升，出现中气十足林黛玉和被迫营业麦当劳的情况[35] - 人手生成仍是历史难题，还有进步空间[46] 音效处理特性 - 可生成效果音和对话，但不会自主生成背景音，需要手动添加BGM[44] - 音效表现突出，如键盘敲击声效果不错[43] - 提供单独的背景音选项但选择后无变化[44] 价格优势 - 限时优惠价格1.4元/5秒，低至行业70%[49] - 登录赠送每月210免费额度[50] - 正常价格2.5元/5秒，200秒视频仅需100元，比对比产品便宜一大半[52] 生成效率 - 视频生成需3分钟，相比对比产品不到1分钟的速度较慢[16][17] - 可能因画面精细度较高导致生成时间较长[18] 生态整合 - 已在百度移动生态广泛使用，结合本土中文生态更适合中国创作者[57] - 提供免费额度获取机会[52]

AI视频生成

Artificial Intelligence

百度蒸汽机2.0

Veo3

AI视频生成

Artificial Intelligence

百度蒸汽机2.0

Veo3

最高提效8倍！腾讯游戏发布专业游戏AI大模型，美术师做动画不用辣么“肝”了

量子位· 2025-08-25 23:47

行业AI技术发展现状 - 国际巨头在游戏开发者大会上展示超过20场AI相关议题，聚焦AI提升美术生产效率、工具集成及具体应用案例[1] - 游戏美术精细度要求呈现指数级增长，导致工作量几何级增加[2] VISVISE解决方案核心功能 - 腾讯发布游戏创作AI全链路解决方案VISVISE，包含动画制作、模型制作、数字资产管理和智能NPC四大管线[4] - MotionBlink工具可根据少量关键帧自动补全中间帧，生成完整序列动画[5] - 传统动画制作中手动补帧占角色动画总工时60%-70%，10秒动画需3-7人天完成[6] - AI生成200帧动画仅需4秒，实现1.5秒间隔极限优化，部分效果达光学动捕水准[7][9] - GoSkinning自动蒙皮工具已在《和平精英》《PUBG Mobile》等产品应用[11] 传统游戏美术生产痛点 - 50%-60%工作量耗费在美术资产制作，3D建模和动画制作是最繁琐环节[13] - 蒙皮流程需手动调整成千上万个权重点，资深绑定师需花费60%时间解决此类问题[13][14] - 传统动画制作方式中：手K方式效率极低（10秒动画调一周），动捕数据质量不稳定需大量修正[15] - 角色骨骼控制精度要求极高，易出现衣物"穿模"问题[16] VISVISE技术实现突破 - GoSkinning采用两阶段AI解决方案：通用蒙皮大模型预测权重+局部AI二次优化复杂部件[18] - 实现2万顶点模型30秒处理完成，效率提升8倍[21] - MotionBlink通过自回归Diffusion模型自动补帧，底层MotionGen大模型基于高精动捕数据[21] - 智能关键帧生成研究已被ACM SIGGRAPH 2025接收[30] - 工具以插件形式嵌入Maya等开发软件，无需重构管线[32] 腾讯游戏AI发展历程 - 2016年开始探索AI应用，2018年扩展至美术生产管线领域[33] - 2022年推出GoSkinning1.0版本，使《和平精英》动画蒙皮效率提升约40%[33][34] - 2023年加大3D模型与动画生成领域投入[36] - 2024年整合分散AI探索为系统化产品矩阵VISVISE[37] - GoSkinning已迭代至4.2版本，新增裙摆蒙皮、四足蒙皮等功能，效率提升达60%以上[34] 实际应用与行业影响 - 腾讯财报连续强调AI对研发效率提升作用，头部产品加大AI应用力度[38] - GoSkinning已应用于近百款游戏，服务内部项目及行业合作伙伴[39] - 游戏行业成为AI技术试验田，对3D资产需求最大且追求极致体验[40][42] 未来技术发展方向 - 多模态成为AI技术发展关键能力，游戏是AIGC最佳应用场景之一[40] - 智能NPC是重点突破方向，需实现像人类一样理解虚拟世界[43][45] - 游戏与AI存在天然协同关系，既是AI考场也是灵感来源[40][45]

苹果折叠屏最新爆料：Touch ID正式回归，4摄系统首次亮相！

量子位· 2025-08-25 23:47

产品设计 - 采用折叠形态展开时可像书本一样打开折叠时可像普通iPhone一样使用[6] - 折叠后厚度约9.5毫米每半机身厚度控制在5毫米以内刷新iPhone纤薄纪录[3][7] - 初期测试配色保守仅有经典黑白两种方案[15] - 屏幕方案从on-cell转换为in-cell技术更接近现有iPhone技术[14] 硬件配置 - 侧边按钮集成Touch ID身份验证系统取代Face ID[8][10] - 配备4颗摄像头包含正面/内侧/背面各一/二颗成为摄像头数量最多的iPhone[12] - 后置双摄像头包含高分辨率主摄和超广角/长焦专用镜头[13] - 搭载首款性能媲美高通的C2蜂窝基带芯片[18] - 完全取消实体SIM卡槽全面采用eSIM方案[18] 产品规划 - 供应商已着手开发计划明年初加紧生产[21] - 最迟上市时间锁定2026年下半年[3][21] - 预估售价区间2300-2500美元（约16491-17925元人民币）[25] - 2027年将推出曲面屏iPhone 20 采用一体式环绕玻璃机身[22] 功能特性 - 展开后8英寸内屏可使用内侧摄像头进行自拍[14] - 机身侧面和背面可显示信息并支持触控交互[22] - iPhone 17 Pro系列将支持前后摄像头同步录制功能[14]