量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-08-19 13:25

核心观点 - 16岁的天才少年Kairan Quazi从SpaceX离职，加入全球顶尖量化交易公司Citadel Securities，担任量化开发者[1][2][8] - Kairan智商超过180，14岁从圣克拉拉大学毕业，曾是SpaceX Starlink部门最年轻的软件工程师[1][15][51] - 量化金融领域相比AI研究具有更快的反馈和更直观的结果，这是Kairan选择转行的重要原因[17][18] 职业经历 - 14岁加入SpaceX Starlink部门，负责数百万客户与互联网连接的关键系统，年薪14-21.6万美元[1][35][39][40] - 在SpaceX工作两年后决定接受新挑战，将技能扩展到不同高性能环境[7] - 曾因年龄问题被上百家公司拒绝，最终被马斯克破格录用[26][30][31] 新公司情况 - Citadel Securities处理美国股票市场近四分之一的交易份额，2024年8月股票成交量超越纽交所[8][9] - 公司CEO赵鹏14岁就读北大数学系，23岁获UC伯克利统计学博士，是量化圈传奇人物[24][25] - Kairan将负责全球交易系统基础设施，工作处于工程与量化问题解决交汇点[11] 个人背景 - 9岁开始修读大学课程，11岁进入圣克拉拉大学工程学院，14岁以建校172年来最年轻毕业生身份毕业[51] - 10岁成为首位在英特尔智能系统研究实验室实习的本科生，参与开发霍金ACAT系统[51] - 幼年加入门萨俱乐部，智商超过180，一直被外界视为神童[27][51] 其他信息 - 因未满16岁曾被领英封禁账号，公开质疑平台规定"不合逻辑、落后可笑"[44][45] - 入职SpaceX时因年龄原因没有驾照，需母亲接送上班[48] - 新工作地点在纽约市中心，步行10分钟即可到达办公室[50]

量子位· 2025-08-19 13:25

行业观点 - 谷歌生成式AI团队创始成员Jad Tarifi认为，当前AI领域发展过快，不建议为追赶热潮而攻读AI博士学位，因为AI技术可能在博士毕业前就被解决[1][5][8] - Tarifi建议要么选择AI生物学等早期细分领域，要么完全避开AI领域，并强调博士学位需要牺牲大量时间和承受痛苦，仅适合对该领域极度痴迷的人[8][9][10] - Tarifi认为传统需要长时间完成的学位（如法律和医学）也面临挑战，因为所学内容可能过时且基于死记硬背[12][13] 就业市场影响 - 生成式AI已成为裁员主要推手之一，2025年前七个月美国因AI裁员超过1万人，AI被列为劳动力减少的五大原因之一[14] - 2025年美国公司已宣布裁员80.6万人，为2020年以来同期最高，科技行业裁员8.9万人，其中2.7万个岗位直接归因于AI驱动的冗余[15][16] - 应届毕业生就业市场收紧，计算机科学专业毕业生需投递2500份简历才能获得10次面试机会，应届生失业率攀升至6%，高于全美平均水平4%[19][20][22] 人才需求变化 - Tarifi建议发展社交技能和同理心，认为AI专业知识涉及"情感谐调"和"良好品味"，而非掌握所有技术细节[23][24][25] - Y Combinator创始人Paul Graham指出低级别编程工作正在消失，建议深耕某一领域至远超AI杂活水平以抵御冲击[27][28] - 近50%美国Z世代求职者认为AI已使其学位贬值，企业如多邻国以"AI使用流畅度"作为招聘晋升标准[18][21]

首个3D动作游戏专用VLA模型，打黑神话&只狼超越人类玩家 | ICCV 2025

量子位· 2025-08-19 13:25

文章核心观点 - 淘天集团未来生活实验室团队提出的CombatVLA模型在3D动作角色扮演游戏的战斗任务中表现出色，成功率超越GPT-4o和人类玩家 [1][4] - CombatVLA是一个3B级别的多模态大模型，通过动作思维（AoT）序列训练，实现了高效战斗决策和50倍加速 [4][8] - 该模型解决了3D战斗场景中的三大挑战：视觉感知、战斗推理和高效推理，并在战斗理解基准测试中全面超越现有模型 [6][11][46] CombatVLA概览 - 视觉-语言-动作模型（VLA）结合视觉、语义和动作控制，推动具身智能发展 [6] - 3D战斗场景面临视觉感知、战斗推理和高效推理三大挑战，现有方案存在泛化能力弱和推理延迟高的问题 [6][7] - CombatVLA基于3B参数规模，能处理视觉输入并输出具体可执行的动作指令，支持键鼠操作 [8] 动作追踪器和评测基准 - 团队开发了动作跟踪器，自动采集大规模训练数据，并建立了战斗理解评测基准CUBench [12][15] - CUBench涵盖信息获取、理解和推理三项核心能力，包含914条数据用于全面测试模型的战斗理解能力 [20][21] - 动作跟踪器在后台运行，监控键盘和鼠标操作以记录用户动作，并同步截取游戏截图 [17][18] CombatVLA模型 - 团队将动作跟踪器采集的数据转化为"动作思维"（AoT）数据，包含动作和解释两部分 [24] - 采用三阶段渐进式训练范式：视频级粗粒度微调、帧级细粒度微调和帧级截断微调 [26][27][29][33] - 训练过程中视觉编码器参数冻结，仅微调语言模型参数，并通过特殊标记实现输出截断加速 [35] 动作执行框架 - 团队开发了轻量级且高效的动作执行智能体，接收实时游戏画面作为输入，输出键鼠动作指令 [36][37] - 推理过程中采用截断输出策略，检测到特殊标记即停止，将内容解析为动作并转换为Python代码执行 [39][40] - 对实时游戏画面进行帧采样，去除冗余视觉信息，降低模型推理负担 [38] 实验结果 - 在CUBench上，CombatVLA取得63.61的最高平均分，比第二名Gemini-2.0-flash高出5.71分 [46] - 在通用基准评测中表现与基座模型相当，验证了方法的稳健性和泛化能力 [47] - 平均推理延迟仅1.8秒，比VARP快约50倍，模型调用成本仅为其1/10 [48][49] - 在任务级实战测试中，CombatVLA在中高难度任务上全面超越基线，并在零样本任务上展现较强泛化能力 [47][55]

AI Agent，搞投资?｜量子位AI沙龙

量子位· 2025-08-19 11:13

AI Agent在投资领域的应用 - AI Agent具备全天在线、理性决策、快速执行的能力，可能替代传统投资方式 [2] - AI Agent在金融投资中的应用潜力成为关注焦点，涉及市场理解、行情预测及替代专业投资顾问团队的可能性 [3] RockFlow创始人背景 - RockFlow创始人兼CEO赖蕴琦（Vakee）拥有12年全球高科技与AI领域早期投资、金融科技产品设计及量化交易经验 [4] - Vakee曾主导投资20多家中美以早期AI与高科技公司，包括Cloudflare（NYSE: NET）、Circle（NYSE: CRCL）等，一级与二级市场投资均实现优异回报 [6] - 曾任职百度投资总监、洪泰资本控股执行董事，具备"产品+资本+技术"融合视角 [4][6] 活动信息 - 量子位AI沙龙将于8月22日周五下午14:00举办，探讨AI Agent与金融投资的结合 [3] - 活动提供线下交流与线上直播两种参与方式 [9]

AI Agent投资

Artificial Intelligence

AI Agent

AI Agent投资

Artificial Intelligence

AI Agent

突破Claude-4编程上限！自进化Agent框架拿下新SOTA，底模越好性能越高，已开源

量子位· 2025-08-19 11:13

核心观点 - SE-Agent框架通过自进化机制显著提升大语言模型在复杂推理任务中的表现，在SWE-Bench Verified基准上实现80%的Top-1 Resolution Rate，刷新领域纪录 [2] - 该框架突破传统独立尝试模式，引入集体进化思想，通过修订、重组、精炼三大算子实现轨迹级优化 [6] - 在开源模型测试中表现突出：DeepSeek-V3提升73%至54.8%，Qwen-2-5-72B提升106%至38.8%，Llama-3-1-70B提升112%至32.6% [12] - Claude-3-7-Sonnet应用该框架后解题成功率从40.6%提升至61.2%，相对提升51% [18] 技术架构自进化机制 - 修订算子：通过多样性初始生成和深度反思修正，消除逻辑不一致和冗余推理 [8] - 重组算子：创新性实现跨轨迹知识共享，包括交叉融合优势基因和知识迁移 [9] - 精炼算子：通过多维度评估函数进行精英选择和多样性保持，实现高效进化收敛 [10] 性能优势 - 解决方案多样性：通过轨迹级干预生成本质不同的解决路径，扩展候选方案空间 [15] - 跨轨迹协同：充分利用轨迹间相互依赖关系，突破单一智能体认知局限 [15] - 模型兼容性：作为独立优化模块可与现有框架无缝集成，在多种LLM上表现一致 [16] 实证表现基准测试 - 在500个真实GitHub问题的SWE-bench Verified基准上全面评测，所有测试LLM均实现显著提升 [11] - 消融实验证明修订和重组两大模块对框架成功至关重要 [14] 案例研究 - 在scikit-learn案例中，传统方法修复失败率78.6%，SE-Agent通过定位multioutput.py文件关键字段实现根本性修复 [20] - 展示框架如何通过轨迹演化避免"隧道视野"，发现隐藏更深的解决方案 [21] 行业影响 - 开创轨迹级优化范式，从参数调整转向系统性推理路径操作 [22] - 验证集体智慧机制是突破单一智能体认知瓶颈的有效途径 [23] - 为构建持续自我改进的智能体系统奠定基础，未来可扩展至强化学习策略发现等领域 [24]

Self-Evolution

Large Language Model (LLM)

Artificial Intelligence

Large Language Model (LLM)

Artificial Intelligence

SE-Agent

Claude-3.7-Sonnet

DeepSeek-V3

小扎“亿元俱乐部”开招白菜岗，年薪20-30万美元，网友：是时候招牛马干苦力了

量子位· 2025-08-19 11:13

Meta超级智能实验室招聘动态 - Meta超级智能实验室从高薪挖顶尖人才转向招聘中端产品运营经理，年薪总包20-30万美元，仅为此前"亿元俱乐部"顶级人才薪酬的1/5至1/100 [2][4][15] - 新岗位薪资范围122000-177000美元/年+奖金+股权+福利，与公司产品经理常规薪资水平（16-31万美元/年）基本持平 [4][14] 岗位职责与要求 - 产品运营经理需协调客户与合作伙伴，聚焦AI模型（GenAI）方向，确保大模型产品顺利上线并优化质量 [6][7][10] - 核心职责包括：构建技术流程收集产品数据、跨部门协作改进工具与流程、设计端到端运营性能计划、指导团队成员等 [8][9][11] - 候选人需本科以上学历+6年以上经验，8年经验、全球团队合作背景或领导经验为加分项 [12][13] - 需具备数据管道构建、高管级仪表盘开发、跨职能沟通及SQL分析能力，能通过数据驱动产品决策 [20] 团队规模与行业背景 - Meta新AI部门整体规模已达2500+人，99%非高薪顶尖人才，反映大规模AI研发进入常态化运营阶段 [18] - 招聘策略调整被外界解读为"核心团队搭建完成后补充执行层"，部分声音调侃薪资对比前期"亿元offer"显得过低 [15][16][17] 业务方向 - 岗位直接关联生成式AI（GenAI）产品线，目标避免类似Llama4的用户负面反馈，强化上线准备度与质量管控 [10][11]

Meta Platforms(US:META)

4o-mini华人领队也离职了，这次不怪小扎

量子位· 2025-08-19 09:17

核心人才流动 - OpenAI核心研究员Kevin Lu离职加入Thinking Machine Lab [1][2][3] - Kevin Lu曾领导OpenAI 4o-mini项目开发并参与o1-mini和o3模型研发 [7][9] - Thinking Machine Lab已集结多位OpenAI前核心成员包括John Schulman、Barrett Zoph等 [4][22] 技术研究方向 - Kevin Lu专长强化学习和小模型其论文《决策Transformer》引用量达2254次 [10][11] - 研究观点认为互联网数据比Transformer架构更重要强调序列数据预测价值 [13][14] - 提出强化学习未来方向在于新数据源和奖励机制创新 [15] 初创公司动态 - Thinking Machine Lab完成20亿美元种子轮融资估值达120亿美元 [17][19] - 公司由OpenAI前CTO Mira Murati创立团队覆盖AI主要研究方向 [18][22] - 在硅谷人才争夺中保持团队稳定拒绝10亿美元薪酬挖角 [20] 产品与技术成果 - 4o-mini为多模态推理小模型支持图文输入和长上下文具有高效低成本特点 [7] - Kevin Lu参与开发的o1-mini和o3模型体现其小模型专长 [9] - Thinking Machine Lab尚未公开技术成果引发行业期待 [21]

强化学习

小模型

多模态推理

Artificial Intelligence

Artificial Intelligence

4o - mini

o1 - mini

中国足球还是靠机器人吧！首届机器人运动会闭幕：票价终究保守了

量子位· 2025-08-18 17:16

机器人足球赛 - 清华火神队以1-0战胜德国队通过一记乌龙球锁定胜局赢得5v5机器人足球赛冠军 [1][2][4] - 比赛采用全自主行动模式机器人数量增至5台复杂度显著高于传统3v3赛制 [21] - 胜负关键取决于算法火神队凭借独家射门算法在50支队伍中脱颖而出 [25] 技术突破 - 机器人配备4摄像头系统主摄像头负责视觉感知辅助摄像头进行距离分析和环境判断响应速度达0.1毫秒 [27][28] - 引入躲避碰撞算法红队采用灵活的人盯人战术蓝队执行稳健的联防策略 [29][30] - 赛事首次实现端到端自主决策涵盖视觉识别空间定位和团队协作等前沿技术 [20][21] 赛事影响力 - 比赛门票定价128-428元销售表现火爆反映公众对机器人技术的高度关注 [35] - 26个赛项487场比拼包括100米障碍赛(冠军成绩33.71秒)和自由搏击等项目 [8][11][32] - 赛事成为技术展示窗口推动机器人运动算法环境交互等实验室成果向公众转化 [33] 商业化潜力 - 宇树科技在障碍赛等7个项目夺金体现运动机器人领域的技术积累 [5][6] - 采用BoosterT1标准硬件平台差异化竞争集中于算法优化层面 [22][24] - 赛事IP商业化初见成效门票体系验证消费级机器人娱乐市场的付费意愿 [35]

超越RAG和DAPT！华人团队新研究引热议：即插即用、无需改变原参即可让模型化身领域专家

量子位· 2025-08-18 17:16

核心观点 - 华人团队提出名为"Memory Decoder"的预训练记忆模块，通过小型前置解码器模仿外部检索器行为，实现低成本、高效率的领域知识增强 [4][5][16] - 相比DAPT（全参数训练）和RAG（实时检索），该方法无需修改原始模型参数且降低困惑度6.17分（预测准确率提升20%-25%） [3][6][19] - 在Qwen（0.5B-72B）和Llama（1B-70B）系列模型中验证，生物医学/金融/法律领域困惑度平均降至3.45-4.67，显著优于LoRA方法 [20][23][25][26] 技术原理 - 架构设计：小型Transformer解码器在预训练阶段压缩领域知识，推理阶段与大模型结果插值融合 [16][18] - 工作流程：以大众汽车CEO问题为例，输出分布从模糊概率（马斯克30%/布鲁默40%）优化至精准倾向（布鲁默80%） [18][19] - 跨模型适配：Qwen训练的Memory Decoder仅需10%额外成本即可迁移至Llama，实现跨架构复用 [25] 性能表现 - Qwen2系列：72B参数模型应用后，生物医学/金融/法律困惑度从6.15/6.62/4.84降至3.45/3.20/3.69 [24] - Llama3系列：70B参数模型在生物医学领域困惑度从5.92降至3.74，金融领域从6.87降至4.01 [26] - 小模型提升：0.5B参数Qwen2.5在金融领域困惑度从16.04降至3.87，降幅达75.9% [24] 行业意义 - 开创领域自适应新范式，即插即用架构可集成至任何共享分词器的LLM [6][30] - 解决DAPT的灾难性遗忘问题和RAG的检索延迟痛点 [13][14] - 降低企业部署成本，单个预训练模块可复用于多型号大模型 [19][25] 当前局限 - 训练阶段需消耗计算资源进行数据库搜索 [27] - 跨分词器适配仍需部分参数更新，无法完全零样本迁移 [28][29]

领域自适应预训练

检索增强生成

Artificial Intelligence

Memory Decoder

领域自适应预训练

检索增强生成

Artificial Intelligence

Memory Decoder

英伟达新研究：小模型才是智能体的未来

量子位· 2025-08-18 17:16

大模型与小模型对比 - 大语言模型在Agent任务中处理重复、专业化子任务时消耗大量计算资源，成本高、效率低、灵活性差 [1] - 小语言模型在性能够用的前提下，使Agent任务执行更经济灵活 [2] - 实测显示6.7B参数的Toolformer调用API后性能超越175B的GPT-3 [3] - 7B参数的DeepSeek-R1-Distill推理表现优于Claude3.5和GPT-4o [4] 小模型优势 - 体积小巧，可在GPU上高效共享资源，并行运行多个工作负载并保持性能隔离 [8] - 更低显存占用，支持超分配机制，提升并发能力 [9] - GPU资源可灵活划分，实现异构负载弹性调度和整体资源优化 [10] - 优先调度小模型的低延迟请求，预留资源应对大模型调用，优化整体吞吐与成本控制 [11] 任务优化与部署 - Agent任务多为重复性、可预测、范围明确的操作（如文档总结、信息提取、模板编写、工具调用） [14][16] - 为每个子任务选择专业微调的小模型，避免大模型资源浪费 [15][16] - 运行70亿参数小模型比700-1750亿参数大模型便宜10-30倍 [20] - 小模型计算资源占用低，适合本地或边缘部署，大模型依赖中心化云计算 [20] 争议与挑战 - 反对观点认为大模型通用理解能力更强，在专业任务中表现更佳 [22] - 小模型可通过微调达到可靠性，且复杂问题可分解为简单子任务，降低对大模型通用能力的需求 [23][24] - 质疑小模型经济性：大规模部署时大模型的规模经济可能更优 [26] - 行业惯性使创新仍集中在大模型，小模型面临基础设施适配、市场认知度低、评估标准缺失等挑战 [28][29] 转型方法 - 采集大模型运行数据，脱敏后保留使用模式 [32] - 聚类工作负载识别常见子任务 [33] - 选择小模型并匹配GPU分配策略，定制数据微调后部署 [34] - 构建持续反馈闭环优化性能和资源利用率 [35] 行业讨论 - 简单任务（如Amazon产品退款）使用小模型更具成本效益 [36] - 小模型在偏离预设流程时可能不够鲁棒，需预先考虑更多变数 [37] - 小模型遵循"一个程序只做好一件事"的设计哲学，但功能多样性可能增加操作复杂度 [37][38][39]