Workflow
量子位
icon
搜索文档
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
量子位· 2025-08-26 12:36
核心人才流失 - Meta强化学习专家Rishabh Agarwal离职 其曾参与Gemini 1[4]5和Gemma 2等核心项目开发 论文总引用量达10[6]392次 h-index为34[6] 2021年获得NeurIPS杰出论文奖[4][14] - 另一名任职12年的Meta资深员工同期离职并加入竞争对手Anthropic推理团队[18][19] - 离职潮可能与新老员工薪酬待遇悬殊引发的内部矛盾相关 部分研究人员曾威胁辞职[23][24] 技术贡献与行业影响 - Rishabh Agarwal在Meta期间主导推理模型后训练工作 具体包括采用RL规模化训练将8B稠密模型性能提升至接近DeepSeek-R1水平 在训练中引入合成数据实现RL热启动 提出高效on-policy蒸馏方法[16][20] - 其2021年发表的深度强化学习统计不稳定性论文成为评估RL算法的里程碑工作[14] - 曾作为核心贡献者参与谷歌Gemini 1[4]5(上下文突破100万token)和Gemma 2(轻量级开源模型)开发[4][13] 人才流动趋势 - Meta近期组建超级智能实验室并大量引进人才 但同期出现资深技术骨干流失现象[1][22] - 高端AI人才更倾向选择创业或探索非传统技术路径 Rishabh Agarwal明确表示拒绝加入Meta新实验室并寻求"完全不同道路"[1][17] - 行业顶尖人才普遍具备跨机构任职背景 Rishabh Agarwal曾同时任职谷歌Brain[6]DeepMind[6]Meta[1]并兼任麦吉尔大学教授[13]
物理学又一乌云消散,希格斯玻色子衰变为μ子新证据出现,或超越标准模型
量子位· 2025-08-26 12:36
希格斯玻色子衰变新发现 - ATLAS团队发现希格斯玻色子衰变为μ子(H→μμ)的有力证据,观测显著性达3.4个标准差(统计波动可能性低于三千分之一)[1][8][13][14] - 该衰变过程极其罕见,约每5000次希格斯衰变中发生1次,为研究希格斯与第二代费米子相互作用提供关键机会[9][10] - 团队通过结合LHC的Run-2和Run-3数据集,并开发复杂背景建模与事件分类技术实现突破[12][13] 衰变过程探测灵敏度提升 - ATLAS同步提升希格斯玻色子衰变为Z玻色子和光子(H→Zγ)的探测灵敏度,观测过剩达2.5个标准差[3][19] - H→Zγ为稀有衰变过程,Z玻色子仅约6%时间衰变为可探测轻子,且LHC Run-3的复杂条件(如粒子堆叠)增加识别难度[18] - 该结果提供了迄今测量H→Zγ衰变分支比的最严格预期灵敏度[19] 科学意义与潜在突破 - 两项发现可能揭示超越标准模型的物理规律,统计上初步出现偏离标准模型预言的迹象[6][7][40] - 研究成果依赖于LHC提供的大量数据,探测难度被比喻为"大海捞针"[4][5] - 未来ATLAS将继续探索新物理规律,推动粒子物理学前沿发展[41] 希格斯玻色子背景知识 - 希格斯玻色子又名"上帝粒子",为自旋为零的不稳定玻色子,2013年被正式确认发现[23][24][25][33] - 其代表希格斯场的振动,该量子场通过希格斯机制赋予W/Z玻色子及费米子质量[34][35] - 标准模型描述强力、弱力、电磁力及基本粒子,希格斯玻色子通过对称性破缺机制赋予其他粒子质量[37][39]
视觉Token注入CLIP语义,走向多模态理解与生成新范式
量子位· 2025-08-26 12:36
核心技术创新 - 提出全新视觉分词器TokLIP 将低级离散视觉Token与高级CLIP语义结合 实现多模态理解与生成的高效统一 [1][2] - 通过语义化VQ token注入CLIP级别语义 使每个离散token同时携带底层结构信息和高层语义信息 [13][14][15] - 采用视觉tokenizer与ViT-based token encoder结合架构 通过蒸馏和对比学习损失优化模型 [17][18] 性能优势 - 训练数据量仅需同类方法的20% 在多项任务中达到SOTA性能 [3][24] - TokLIP-B版本在ImageNet分类达到76.4% Top1准确率 超越VILA-U的73.3%和QLIP的74.3% [23][27] - 在COCO检索任务中 TR@1达到64.06% IR@1达到48.46% 显著优于同类方法 [27] - TokLIP-L版本在384分辨率下实现80.0% ImageNet分类准确率 超越QLIP的79.1% [27] 架构设计特点 - 使用Causal Token encoder保证自回归生成过程无信息泄漏 [19] - 采用Freeze VQGAN设计保留生成能力 支持框架灵活替换 [26] - 继承预训练CLIP权重 在相同算力下更快收敛 训练pipeline更简洁高效 [26] - 无需专门重构损失保证token可逆性 避免训练冲突并降低复杂度 [26] 多模态任务表现 - 在7个下游多模态理解任务中展现竞争力 MLLM问答与推理更准确 [28] - TokLIP-L在MMB任务达到76.9% 显著优于Emu3-Chat的58.5%和VILA-U的60.8% [29] - TokLIP-XL在MMMU任务达到47.1% 超越TokenFlow-XL的38.7% [29] - 自回归图像生成任务FID指标显著改善 384分辨率下从14.48降至12.37 [30][31] 应用前景 - 可无缝接入现有LLM框架 极大降低多模态模型计算与数据门槛 [3][20] - 为构建下一代多模态通用模型提供重要基础组件 [3][32] - 支持端到端自回归训练 实现理解与生成能力的统一 [3][7][12]
最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室
量子位· 2025-08-26 07:05
核心观点 - 通义实验室推出Mobile-Agent-v3智能体框架 在手机端和电脑端多个核心榜单取得开源最佳性能 实现自动化操作手机和电脑的突破性进展 [1][2] - 该框架通过图形交互基础模型(GUI-Owl)实现界面元素精准定位、复杂任务规划和多智能体协同 在10个主流GUI榜单中均取得开源SOTA水平 [9][17] - 采用自我进化轨迹生产基建和强化学习算法 构建自动化数据生产闭环 在OSWorld动态环境中成功率提升近8个百分点 [11][31][36] 技术架构 - 基于阿里云跨平台云环境基础设施 构建覆盖Android/Ubuntu/macOS/Windows的云端沙箱执行环境 [11] - 通过Self-Evolving GUI Trajectory Production系统实现数据采集与模型优化自动化闭环 包括高质量任务生成、轨迹正确性判断和任务指南生成模块 [13][14] - 采用轨迹感知相对策略优化(TRPO)算法 解决稀疏奖励和信用分配难题 在OSWorld-Verified基准测试中成功率从27.1%提升至34.9% [31] 核心能力 - 精准界面元素定位:整合开源数据集和无障碍树数据合成 采用SAM模型进行PC端密集定位 过滤IoU低于0.5的噪声框 [19] - 细粒度文字定位:支持单词和单字符级精确定位 可响应"点击第三段第二行的'提交'二字"类指令 [20] - 复杂任务规划:从历史轨迹提炼执行手册 通过Qwen3-235B等大语言模型生成详细执行计划 [22][23] - 动作语义理解:构建操作前后截图对 建立视觉差异到用户行为的因果映射能力 [24][25] 多智能体协同 - Mobile-Agent-v3框架包含Manager、Worker、Reflector和Notetaker四个智能体角色 均由同一GUI-Owl模型扮演 [33] - 形成拆解→执行→检查→记录→调整→再执行的闭环自动化流水线 在真实环境评测中带来7-8个百分点性能提升 [34][40] - 支持知识检索(RAG)、任务规划、子任务执行与反思推理等完整功能链 [33] 性能表现 - GUI-Owl-32B在Easy/Medium/Hard三个难度级别的综合得分分别为92.75%/91.74%/94.19% 全面超越GPT-4o(60.16%/57.24%/53.49%)和Claude-3.5(41.54%/41.26%/37.55%) [37] - 在跨平台评测中 GUI-Owl-32B在Windows/MacOS/Linux/iOS/Android/Web平台综合得分82.97% 显著领先InternVL3-72B(72.20%)和Qwen2.5-VL-72B(41.83%) [38] - 在细粒度操作任务中 GUI-Owl-32B在文本匹配(67.0%)、元素识别(64.5%)、布局理解(67.2%)等维度表现优异 [39] - Mobile-Agent-v3在OSWorld-Verified和AndroidWorld基准测试中分别达到37.7%和73.3%的得分 超越同类开源模型 [41]
售价2万5!英伟达推出机器人“最强大脑”:AI算力飙升750%配128GB大内存,宇树已经用上了
量子位· 2025-08-26 07:05
产品发布与性能参数 - 英伟达推出全新机器人计算平台Jetson Thor 基于Blackwell GPU架构 AI算力达2070 TFLOPS 较上一代Jetson Orin提升7.5倍 能效提升3.5倍 [1] - 配备128GB LPDDR5X内存 显存带宽273GB/s 在边缘计算设备中属前所未有配置 [2][13] - 支持多实例GPU技术 最高配置2560核GPU及96个第五代Tensor Core 精简版T4000配置1536核GPU及64个Tensor Core [11][13] - 功耗范围40-130W 支持移动平台到固定式机器人的多样化热设计 [13] - 开发者套件美国售价3499美元 T5000模组批量采购单价2999美元 [8][9] 技术特性与创新 - 通过FP4量化和推测解码技术 部分模型性能可再提升2倍 [15] - 响应速度达200毫秒内生成首个token 每秒生成超25个token 支撑实时人机对话 [16] - 支持多路4K/8K视频编解码 最多4个25GbE网络接口 实现多传感器数据超低延迟直传GPU内存 [13][22] - 原生集成NVIDIA Isaac仿真开发平台 Isaac GR00T人形机器人基础模型 Metropolis视觉AI及Holoscan传感器工作流 [14] 生态系统与合作 - 全球首批集成企业包括联影医疗 万集科技 优必选 银河通用 宇树科技等中国公司 以及波士顿动力 Agility Robotics等国际企业 [19][20][21] - 研华科技 米文动力 天准科技等正开发量产级Jetson Thor系统 亚德诺半导体 e-con Systems等提供传感器支持 [18] - 宇树科技反馈平台带来计算能力飞跃 银河通用机器人运动速度和流畅性显著提升 [19] 战略意义与行业影响 - 被定位为"机器人大脑" 与训练AI的DGX系统 测试AI的Omniverse平台构成物理AI三大计算支柱 [23] - 推动物理AI与通用机器人时代到来 支持构建可与物理世界交互的机器人系统 [3][4] - 支持所有主流生成式AI框架 包括Qwen DeepSeek等语言模型及视觉语言动作模型 [6] - 采用持续循环的开发模式:训练-仿真-部署 即使机器人部署后仍持续升级能力 [24][25]
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学
量子位· 2025-08-25 23:47
多模态大模型评估挑战 - 现有基准测试因预训练数据污染面临评估失效风险,需开发动态评估方法应对顶尖AI能力评估困境 [1] MAC动态基准设计理念 - 采用顶级学术期刊封面作为测试素材,利用科学前沿内容的持续演进特性构建动态评估基准 [3] - 覆盖188种顶级期刊,从25,000+图文对构建测试集,聚焦艺术化视觉元素与科学概念的深层关联理解 [3] - 通过年度更新机制(如MAC-2025涵盖2024年1月至2025年2月内容)减少数据污染,保持评估挑战性 [16] 测试任务设计与语义陷阱 - 设计看图选文(Image2Text)和看文选图(Text2Image)双任务评估跨模态理解能力 [17] - 采用CLIP等嵌入模型生成语义干扰项,要求模型区分表面相似但科学概念不同的选项(如"癌症耐药性机制"vs"癌症产生机理") [8][16] 多模态模型性能表现 - 顶尖模型表现显著低于常规基准:Step-3最高准确率79.1%,GPT-4o准确率74.3-75.1%,Gemini-1.5-Pro准确率70.4-72.8% [4][18] - 开源模型Qwen2.5-VL-7B准确率仅56.8-61.0%,显示与闭源模型存在明显差距 [4][18] - 模型普遍存在视觉识别与科学概念理解脱节问题,能识别"药丸""处方单"但无法关联"耐药性"核心概念 [16][19] DAD分步推理解决方案 - 提出描述-推理两阶段方法:先由多模态模型生成视觉描述,再由语言模型进行高层分析 [22][23] - 该方法显著提升模型准确率,模拟人类专家先观察后分析的思维过程 [22] 动态基准双机制验证 - 动态数据机制:所有模型在最新数据(MAC-2025)表现均差于早期数据(MAC-Old),证实新知识自然提升测试难度 [26] - 动态问题构建:采用更强嵌入模型(如SigLip2)重构干扰项后,所有模型准确率进一步下降,证明测试难度可与AI技术同步进化 [27] 学术影响与未来发展 - 研究成果将于2025年语言模型大会(COLM)发表 [5] - 计划扩展至更多科学期刊、学术会议论文及科学新闻,构建持续演进的评估平台 [27][28]
Karpathy氛围编程最新指南!三层AI编程结构:顺境Cursor,逆境Claude,绝境GPT-5 Pro
量子位· 2025-08-25 23:47
AI编程三层结构框架 - Karpathy提出AI编程的三层递进结构 将编程任务按复杂度和工具特性分为三个层级进行分配[1][3] - 第一层使用Cursor处理约75%的常见情况 通过Tab键自动补全代码和小范围修改[9] - 第二层使用Claude Code/Codex实现较大功能块 特别适用于开发者不熟悉的领域如Rust和SQL语句[14][16] - 第三层使用GPT-5 Pro解决最棘手问题 如复杂bug修复和深度文档研究[4][20] 工具配置与使用策略 - Cursor支持配置多模型 包括claude-3.5-sonnet、gpt-40、gpt-5等主流AI编程模型[15] - 采用"顺境Cursor 逆境Claude/Codex 绝境GPT-5 Pro"的分层调用策略[6][7] - 通过代码片段或注释实现高带宽沟通 比文字描述更高效传递任务意图[11][12] 当前AI编程工具的局限性 - 模型容易跑偏 需要频繁终止任务 不适合全面托管模式(YOLO模式)[16] - 生成代码存在质量问题 包括滥用try/catch 代码膨胀 重复代码块等问题[17] - 缺乏解释性和交互性 工具更倾向于写代码而非解释代码逻辑[18][19] 开发者实践经验 - 网友使用统计显示约80%为自动补全 18-19%为功能添加 很少用于bug修复和重构[28] - 零样本新功能生成效果不稳定 通常需要大量清理工作[28] - 全自主模式表现最差 需要高度监督才能产出有用结果[28] 社区反馈与优化建议 - 开发者建议提供详细需求说明和功能拆解 附验收标准确保代码一致性[31] - 推荐采用增量式开发流程:需求分析-思路生成-代码实现-复查测试的循环[25] - 模型间切换已成为一门艺术 不同模型针对特定任务表现差异显著[29]
AI视频生成新品实测:这怎么不算影院级呢?
量子位· 2025-08-25 23:47
模型性能表现 - 作为全球首个中文音视频一体化生成的I2V模型,在中文语音和口型同步方面表现自然[3][6] - 升级版本擅长复杂运镜和镜头叙事能力,画质进一步提升[7] - 视频生成精细度较高,生成视频大小达20.8M,比对比产品3M大很多[18] 功能应用场景 - 仅用1张图片和1段提示词即可生成带音效的视频,例如猫呼噜声和虫子叫声[4] - 支持宠物动态写真生成,使照片自然动起来[20][29] - 支持创意实现如让林黛玉念《葬花吟》或麦当劳叔叔推荐肯德基[34] - 提供5秒和10秒两种视频长度选择[47] 语义理解能力 - 对提示词中部分内容如"奔跑"和"黄蝴蝶"存在理解忽略现象[15][45] - 对情绪把控有待提升,出现中气十足林黛玉和被迫营业麦当劳的情况[35] - 人手生成仍是历史难题,还有进步空间[46] 音效处理特性 - 可生成效果音和对话,但不会自主生成背景音,需要手动添加BGM[44] - 音效表现突出,如键盘敲击声效果不错[43] - 提供单独的背景音选项但选择后无变化[44] 价格优势 - 限时优惠价格1.4元/5秒,低至行业70%[49] - 登录赠送每月210免费额度[50] - 正常价格2.5元/5秒,200秒视频仅需100元,比对比产品便宜一大半[52] 生成效率 - 视频生成需3分钟,相比对比产品不到1分钟的速度较慢[16][17] - 可能因画面精细度较高导致生成时间较长[18] 生态整合 - 已在百度移动生态广泛使用,结合本土中文生态更适合中国创作者[57] - 提供免费额度获取机会[52]
最高提效8倍!腾讯游戏发布专业游戏AI大模型,美术师做动画不用辣么“肝”了
量子位· 2025-08-25 23:47
行业AI技术发展现状 - 国际巨头在游戏开发者大会上展示超过20场AI相关议题,聚焦AI提升美术生产效率、工具集成及具体应用案例[1] - 游戏美术精细度要求呈现指数级增长,导致工作量几何级增加[2] VISVISE解决方案核心功能 - 腾讯发布游戏创作AI全链路解决方案VISVISE,包含动画制作、模型制作、数字资产管理和智能NPC四大管线[4] - MotionBlink工具可根据少量关键帧自动补全中间帧,生成完整序列动画[5] - 传统动画制作中手动补帧占角色动画总工时60%-70%,10秒动画需3-7人天完成[6] - AI生成200帧动画仅需4秒,实现1.5秒间隔极限优化,部分效果达光学动捕水准[7][9] - GoSkinning自动蒙皮工具已在《和平精英》《PUBG Mobile》等产品应用[11] 传统游戏美术生产痛点 - 50%-60%工作量耗费在美术资产制作,3D建模和动画制作是最繁琐环节[13] - 蒙皮流程需手动调整成千上万个权重点,资深绑定师需花费60%时间解决此类问题[13][14] - 传统动画制作方式中:手K方式效率极低(10秒动画调一周),动捕数据质量不稳定需大量修正[15] - 角色骨骼控制精度要求极高,易出现衣物"穿模"问题[16] VISVISE技术实现突破 - GoSkinning采用两阶段AI解决方案:通用蒙皮大模型预测权重+局部AI二次优化复杂部件[18] - 实现2万顶点模型30秒处理完成,效率提升8倍[21] - MotionBlink通过自回归Diffusion模型自动补帧,底层MotionGen大模型基于高精动捕数据[21] - 智能关键帧生成研究已被ACM SIGGRAPH 2025接收[30] - 工具以插件形式嵌入Maya等开发软件,无需重构管线[32] 腾讯游戏AI发展历程 - 2016年开始探索AI应用,2018年扩展至美术生产管线领域[33] - 2022年推出GoSkinning1.0版本,使《和平精英》动画蒙皮效率提升约40%[33][34] - 2023年加大3D模型与动画生成领域投入[36] - 2024年整合分散AI探索为系统化产品矩阵VISVISE[37] - GoSkinning已迭代至4.2版本,新增裙摆蒙皮、四足蒙皮等功能,效率提升达60%以上[34] 实际应用与行业影响 - 腾讯财报连续强调AI对研发效率提升作用,头部产品加大AI应用力度[38] - GoSkinning已应用于近百款游戏,服务内部项目及行业合作伙伴[39] - 游戏行业成为AI技术试验田,对3D资产需求最大且追求极致体验[40][42] 未来技术发展方向 - 多模态成为AI技术发展关键能力,游戏是AIGC最佳应用场景之一[40] - 智能NPC是重点突破方向,需实现像人类一样理解虚拟世界[43][45] - 游戏与AI存在天然协同关系,既是AI考场也是灵感来源[40][45]
苹果折叠屏最新爆料:Touch ID正式回归,4摄系统首次亮相!
量子位· 2025-08-25 23:47
产品设计 - 采用折叠形态 展开时可像书本一样打开 折叠时可像普通iPhone一样使用[6] - 折叠后厚度约9.5毫米 每半机身厚度控制在5毫米以内 刷新iPhone纤薄纪录[3][7] - 初期测试配色保守 仅有经典黑白两种方案[15] - 屏幕方案从on-cell转换为in-cell技术 更接近现有iPhone技术[14] 硬件配置 - 侧边按钮集成Touch ID身份验证系统 取代Face ID[8][10] - 配备4颗摄像头 包含正面/内侧/背面各一/二颗 成为摄像头数量最多的iPhone[12] - 后置双摄像头包含高分辨率主摄和超广角/长焦专用镜头[13] - 搭载首款性能媲美高通的C2蜂窝基带芯片[18] - 完全取消实体SIM卡槽 全面采用eSIM方案[18] 产品规划 - 供应商已着手开发 计划明年初加紧生产[21] - 最迟上市时间锁定2026年下半年[3][21] - 预估售价区间2300-2500美元(约16491-17925元人民币)[25] - 2027年将推出曲面屏iPhone 20 采用一体式环绕玻璃机身[22] 功能特性 - 展开后8英寸内屏可使用内侧摄像头进行自拍[14] - 机身侧面和背面可显示信息并支持触控交互[22] - iPhone 17 Pro系列将支持前后摄像头同步录制功能[14]