量子位
搜索文档
16岁炒马斯克鱿鱼,SpaceX天才转投北大数学校友赵鹏麾下
量子位· 2025-08-19 13:25
核心观点 - 16岁的天才少年Kairan Quazi从SpaceX离职,加入全球顶尖量化交易公司Citadel Securities,担任量化开发者[1][2][8] - Kairan智商超过180,14岁从圣克拉拉大学毕业,曾是SpaceX Starlink部门最年轻的软件工程师[1][15][51] - 量化金融领域相比AI研究具有更快的反馈和更直观的结果,这是Kairan选择转行的重要原因[17][18] 职业经历 - 14岁加入SpaceX Starlink部门,负责数百万客户与互联网连接的关键系统,年薪14-21.6万美元[1][35][39][40] - 在SpaceX工作两年后决定接受新挑战,将技能扩展到不同高性能环境[7] - 曾因年龄问题被上百家公司拒绝,最终被马斯克破格录用[26][30][31] 新公司情况 - Citadel Securities处理美国股票市场近四分之一的交易份额,2024年8月股票成交量超越纽交所[8][9] - 公司CEO赵鹏14岁就读北大数学系,23岁获UC伯克利统计学博士,是量化圈传奇人物[24][25] - Kairan将负责全球交易系统基础设施,工作处于工程与量化问题解决交汇点[11] 个人背景 - 9岁开始修读大学课程,11岁进入圣克拉拉大学工程学院,14岁以建校172年来最年轻毕业生身份毕业[51] - 10岁成为首位在英特尔智能系统研究实验室实习的本科生,参与开发霍金ACAT系统[51] - 幼年加入门萨俱乐部,智商超过180,一直被外界视为神童[27][51] 其他信息 - 因未满16岁曾被领英封禁账号,公开质疑平台规定"不合逻辑、落后可笑"[44][45] - 入职SpaceX时因年龄原因没有驾照,需母亲接送上班[48] - 新工作地点在纽约市中心,步行10分钟即可到达办公室[50]
“现在读AI博士已经太晚了”
量子位· 2025-08-19 13:25
行业观点 - 谷歌生成式AI团队创始成员Jad Tarifi认为,当前AI领域发展过快,不建议为追赶热潮而攻读AI博士学位,因为AI技术可能在博士毕业前就被解决[1][5][8] - Tarifi建议要么选择AI生物学等早期细分领域,要么完全避开AI领域,并强调博士学位需要牺牲大量时间和承受痛苦,仅适合对该领域极度痴迷的人[8][9][10] - Tarifi认为传统需要长时间完成的学位(如法律和医学)也面临挑战,因为所学内容可能过时且基于死记硬背[12][13] 就业市场影响 - 生成式AI已成为裁员主要推手之一,2025年前七个月美国因AI裁员超过1万人,AI被列为劳动力减少的五大原因之一[14] - 2025年美国公司已宣布裁员80.6万人,为2020年以来同期最高,科技行业裁员8.9万人,其中2.7万个岗位直接归因于AI驱动的冗余[15][16] - 应届毕业生就业市场收紧,计算机科学专业毕业生需投递2500份简历才能获得10次面试机会,应届生失业率攀升至6%,高于全美平均水平4%[19][20][22] 人才需求变化 - Tarifi建议发展社交技能和同理心,认为AI专业知识涉及"情感谐调"和"良好品味",而非掌握所有技术细节[23][24][25] - Y Combinator创始人Paul Graham指出低级别编程工作正在消失,建议深耕某一领域至远超AI杂活水平以抵御冲击[27][28] - 近50%美国Z世代求职者认为AI已使其学位贬值,企业如多邻国以"AI使用流畅度"作为招聘晋升标准[18][21]
首个3D动作游戏专用VLA模型,打黑神话&只狼超越人类玩家 | ICCV 2025
量子位· 2025-08-19 13:25
文章核心观点 - 淘天集团未来生活实验室团队提出的CombatVLA模型在3D动作角色扮演游戏的战斗任务中表现出色,成功率超越GPT-4o和人类玩家 [1][4] - CombatVLA是一个3B级别的多模态大模型,通过动作思维(AoT)序列训练,实现了高效战斗决策和50倍加速 [4][8] - 该模型解决了3D战斗场景中的三大挑战:视觉感知、战斗推理和高效推理,并在战斗理解基准测试中全面超越现有模型 [6][11][46] CombatVLA概览 - 视觉-语言-动作模型(VLA)结合视觉、语义和动作控制,推动具身智能发展 [6] - 3D战斗场景面临视觉感知、战斗推理和高效推理三大挑战,现有方案存在泛化能力弱和推理延迟高的问题 [6][7] - CombatVLA基于3B参数规模,能处理视觉输入并输出具体可执行的动作指令,支持键鼠操作 [8] 动作追踪器和评测基准 - 团队开发了动作跟踪器,自动采集大规模训练数据,并建立了战斗理解评测基准CUBench [12][15] - CUBench涵盖信息获取、理解和推理三项核心能力,包含914条数据用于全面测试模型的战斗理解能力 [20][21] - 动作跟踪器在后台运行,监控键盘和鼠标操作以记录用户动作,并同步截取游戏截图 [17][18] CombatVLA模型 - 团队将动作跟踪器采集的数据转化为"动作思维"(AoT)数据,包含动作和解释两部分 [24] - 采用三阶段渐进式训练范式:视频级粗粒度微调、帧级细粒度微调和帧级截断微调 [26][27][29][33] - 训练过程中视觉编码器参数冻结,仅微调语言模型参数,并通过特殊标记实现输出截断加速 [35] 动作执行框架 - 团队开发了轻量级且高效的动作执行智能体,接收实时游戏画面作为输入,输出键鼠动作指令 [36][37] - 推理过程中采用截断输出策略,检测到特殊标记即停止,将内容解析为动作并转换为Python代码执行 [39][40] - 对实时游戏画面进行帧采样,去除冗余视觉信息,降低模型推理负担 [38] 实验结果 - 在CUBench上,CombatVLA取得63.61的最高平均分,比第二名Gemini-2.0-flash高出5.71分 [46] - 在通用基准评测中表现与基座模型相当,验证了方法的稳健性和泛化能力 [47] - 平均推理延迟仅1.8秒,比VARP快约50倍,模型调用成本仅为其1/10 [48][49] - 在任务级实战测试中,CombatVLA在中高难度任务上全面超越基线,并在零样本任务上展现较强泛化能力 [47][55]
AI Agent,搞投资?|量子位AI沙龙
量子位· 2025-08-19 11:13
AI Agent在投资领域的应用 - AI Agent具备全天在线、理性决策、快速执行的能力,可能替代传统投资方式 [2] - AI Agent在金融投资中的应用潜力成为关注焦点,涉及市场理解、行情预测及替代专业投资顾问团队的可能性 [3] RockFlow创始人背景 - RockFlow创始人兼CEO赖蕴琦(Vakee)拥有12年全球高科技与AI领域早期投资、金融科技产品设计及量化交易经验 [4] - Vakee曾主导投资20多家中美以早期AI与高科技公司,包括Cloudflare(NYSE: NET)、Circle(NYSE: CRCL)等,一级与二级市场投资均实现优异回报 [6] - 曾任职百度投资总监、洪泰资本控股执行董事,具备"产品+资本+技术"融合视角 [4][6] 活动信息 - 量子位AI沙龙将于8月22日周五下午14:00举办,探讨AI Agent与金融投资的结合 [3] - 活动提供线下交流与线上直播两种参与方式 [9]
突破Claude-4编程上限!自进化Agent框架拿下新SOTA,底模越好性能越高,已开源
量子位· 2025-08-19 11:13
核心观点 - SE-Agent框架通过自进化机制显著提升大语言模型在复杂推理任务中的表现,在SWE-Bench Verified基准上实现80%的Top-1 Resolution Rate,刷新领域纪录 [2] - 该框架突破传统独立尝试模式,引入集体进化思想,通过修订、重组、精炼三大算子实现轨迹级优化 [6] - 在开源模型测试中表现突出:DeepSeek-V3提升73%至54.8%,Qwen-2-5-72B提升106%至38.8%,Llama-3-1-70B提升112%至32.6% [12] - Claude-3-7-Sonnet应用该框架后解题成功率从40.6%提升至61.2%,相对提升51% [18] 技术架构 自进化机制 - 修订算子:通过多样性初始生成和深度反思修正,消除逻辑不一致和冗余推理 [8] - 重组算子:创新性实现跨轨迹知识共享,包括交叉融合优势基因和知识迁移 [9] - 精炼算子:通过多维度评估函数进行精英选择和多样性保持,实现高效进化收敛 [10] 性能优势 - 解决方案多样性:通过轨迹级干预生成本质不同的解决路径,扩展候选方案空间 [15] - 跨轨迹协同:充分利用轨迹间相互依赖关系,突破单一智能体认知局限 [15] - 模型兼容性:作为独立优化模块可与现有框架无缝集成,在多种LLM上表现一致 [16] 实证表现 基准测试 - 在500个真实GitHub问题的SWE-bench Verified基准上全面评测,所有测试LLM均实现显著提升 [11] - 消融实验证明修订和重组两大模块对框架成功至关重要 [14] 案例研究 - 在scikit-learn案例中,传统方法修复失败率78.6%,SE-Agent通过定位multioutput.py文件关键字段实现根本性修复 [20] - 展示框架如何通过轨迹演化避免"隧道视野",发现隐藏更深的解决方案 [21] 行业影响 - 开创轨迹级优化范式,从参数调整转向系统性推理路径操作 [22] - 验证集体智慧机制是突破单一智能体认知瓶颈的有效途径 [23] - 为构建持续自我改进的智能体系统奠定基础,未来可扩展至强化学习策略发现等领域 [24]
小扎“亿元俱乐部”开招白菜岗,年薪20-30万美元,网友:是时候招牛马干苦力了
量子位· 2025-08-19 11:13
Meta超级智能实验室招聘动态 - Meta超级智能实验室从高薪挖顶尖人才转向招聘中端产品运营经理,年薪总包20-30万美元,仅为此前"亿元俱乐部"顶级人才薪酬的1/5至1/100 [2][4][15] - 新岗位薪资范围122000-177000美元/年+奖金+股权+福利,与公司产品经理常规薪资水平(16-31万美元/年)基本持平 [4][14] 岗位职责与要求 - 产品运营经理需协调客户与合作伙伴,聚焦AI模型(GenAI)方向,确保大模型产品顺利上线并优化质量 [6][7][10] - 核心职责包括:构建技术流程收集产品数据、跨部门协作改进工具与流程、设计端到端运营性能计划、指导团队成员等 [8][9][11] - 候选人需本科以上学历+6年以上经验,8年经验、全球团队合作背景或领导经验为加分项 [12][13] - 需具备数据管道构建、高管级仪表盘开发、跨职能沟通及SQL分析能力,能通过数据驱动产品决策 [20] 团队规模与行业背景 - Meta新AI部门整体规模已达2500+人,99%非高薪顶尖人才,反映大规模AI研发进入常态化运营阶段 [18] - 招聘策略调整被外界解读为"核心团队搭建完成后补充执行层",部分声音调侃薪资对比前期"亿元offer"显得过低 [15][16][17] 业务方向 - 岗位直接关联生成式AI(GenAI)产品线,目标避免类似Llama4的用户负面反馈,强化上线准备度与质量管控 [10][11]
4o-mini华人领队也离职了,这次不怪小扎
量子位· 2025-08-19 09:17
核心人才流动 - OpenAI核心研究员Kevin Lu离职 加入Thinking Machine Lab [1][2][3] - Kevin Lu曾领导OpenAI 4o-mini项目开发 并参与o1-mini和o3模型研发 [7][9] - Thinking Machine Lab已集结多位OpenAI前核心成员 包括John Schulman、Barrett Zoph等 [4][22] 技术研究方向 - Kevin Lu专长强化学习和小模型 其论文《决策Transformer》引用量达2254次 [10][11] - 研究观点认为互联网数据比Transformer架构更重要 强调序列数据预测价值 [13][14] - 提出强化学习未来方向在于新数据源和奖励机制创新 [15] 初创公司动态 - Thinking Machine Lab完成20亿美元种子轮融资 估值达120亿美元 [17][19] - 公司由OpenAI前CTO Mira Murati创立 团队覆盖AI主要研究方向 [18][22] - 在硅谷人才争夺中保持团队稳定 拒绝10亿美元薪酬挖角 [20] 产品与技术成果 - 4o-mini为多模态推理小模型 支持图文输入和长上下文 具有高效低成本特点 [7] - Kevin Lu参与开发的o1-mini和o3模型体现其小模型专长 [9] - Thinking Machine Lab尚未公开技术成果 引发行业期待 [21]
中国足球还是靠机器人吧!首届机器人运动会闭幕:票价终究保守了
量子位· 2025-08-18 17:16
机器人足球赛 - 清华火神队以1-0战胜德国队 通过一记乌龙球锁定胜局 赢得5v5机器人足球赛冠军 [1][2][4] - 比赛采用全自主行动模式 机器人数量增至5台 复杂度显著高于传统3v3赛制 [21] - 胜负关键取决于算法 火神队凭借独家射门算法在50支队伍中脱颖而出 [25] 技术突破 - 机器人配备4摄像头系统 主摄像头负责视觉感知 辅助摄像头进行距离分析和环境判断 响应速度达0.1毫秒 [27][28] - 引入躲避碰撞算法 红队采用灵活的人盯人战术 蓝队执行稳健的联防策略 [29][30] - 赛事首次实现端到端自主决策 涵盖视觉识别 空间定位和团队协作等前沿技术 [20][21] 赛事影响力 - 比赛门票定价128-428元 销售表现火爆 反映公众对机器人技术的高度关注 [35] - 26个赛项487场比拼 包括100米障碍赛(冠军成绩33.71秒)和自由搏击等项目 [8][11][32] - 赛事成为技术展示窗口 推动机器人运动算法 环境交互等实验室成果向公众转化 [33] 商业化潜力 - 宇树科技在障碍赛等7个项目夺金 体现运动机器人领域的技术积累 [5][6] - 采用BoosterT1标准硬件平台 差异化竞争集中于算法优化层面 [22][24] - 赛事IP商业化初见成效 门票体系验证消费级机器人娱乐市场的付费意愿 [35]
超越RAG和DAPT!华人团队新研究引热议:即插即用、无需改变原参即可让模型化身领域专家
量子位· 2025-08-18 17:16
核心观点 - 华人团队提出名为"Memory Decoder"的预训练记忆模块,通过小型前置解码器模仿外部检索器行为,实现低成本、高效率的领域知识增强 [4][5][16] - 相比DAPT(全参数训练)和RAG(实时检索),该方法无需修改原始模型参数且降低困惑度6.17分(预测准确率提升20%-25%) [3][6][19] - 在Qwen(0.5B-72B)和Llama(1B-70B)系列模型中验证,生物医学/金融/法律领域困惑度平均降至3.45-4.67,显著优于LoRA方法 [20][23][25][26] 技术原理 - 架构设计:小型Transformer解码器在预训练阶段压缩领域知识,推理阶段与大模型结果插值融合 [16][18] - 工作流程:以大众汽车CEO问题为例,输出分布从模糊概率(马斯克30%/布鲁默40%)优化至精准倾向(布鲁默80%) [18][19] - 跨模型适配:Qwen训练的Memory Decoder仅需10%额外成本即可迁移至Llama,实现跨架构复用 [25] 性能表现 - Qwen2系列:72B参数模型应用后,生物医学/金融/法律困惑度从6.15/6.62/4.84降至3.45/3.20/3.69 [24] - Llama3系列:70B参数模型在生物医学领域困惑度从5.92降至3.74,金融领域从6.87降至4.01 [26] - 小模型提升:0.5B参数Qwen2.5在金融领域困惑度从16.04降至3.87,降幅达75.9% [24] 行业意义 - 开创领域自适应新范式,即插即用架构可集成至任何共享分词器的LLM [6][30] - 解决DAPT的灾难性遗忘问题和RAG的检索延迟痛点 [13][14] - 降低企业部署成本,单个预训练模块可复用于多型号大模型 [19][25] 当前局限 - 训练阶段需消耗计算资源进行数据库搜索 [27] - 跨分词器适配仍需部分参数更新,无法完全零样本迁移 [28][29]
英伟达新研究:小模型才是智能体的未来
量子位· 2025-08-18 17:16
大模型与小模型对比 - 大语言模型在Agent任务中处理重复、专业化子任务时消耗大量计算资源,成本高、效率低、灵活性差 [1] - 小语言模型在性能够用的前提下,使Agent任务执行更经济灵活 [2] - 实测显示6.7B参数的Toolformer调用API后性能超越175B的GPT-3 [3] - 7B参数的DeepSeek-R1-Distill推理表现优于Claude3.5和GPT-4o [4] 小模型优势 - 体积小巧,可在GPU上高效共享资源,并行运行多个工作负载并保持性能隔离 [8] - 更低显存占用,支持超分配机制,提升并发能力 [9] - GPU资源可灵活划分,实现异构负载弹性调度和整体资源优化 [10] - 优先调度小模型的低延迟请求,预留资源应对大模型调用,优化整体吞吐与成本控制 [11] 任务优化与部署 - Agent任务多为重复性、可预测、范围明确的操作(如文档总结、信息提取、模板编写、工具调用) [14][16] - 为每个子任务选择专业微调的小模型,避免大模型资源浪费 [15][16] - 运行70亿参数小模型比700-1750亿参数大模型便宜10-30倍 [20] - 小模型计算资源占用低,适合本地或边缘部署,大模型依赖中心化云计算 [20] 争议与挑战 - 反对观点认为大模型通用理解能力更强,在专业任务中表现更佳 [22] - 小模型可通过微调达到可靠性,且复杂问题可分解为简单子任务,降低对大模型通用能力的需求 [23][24] - 质疑小模型经济性:大规模部署时大模型的规模经济可能更优 [26] - 行业惯性使创新仍集中在大模型,小模型面临基础设施适配、市场认知度低、评估标准缺失等挑战 [28][29] 转型方法 - 采集大模型运行数据,脱敏后保留使用模式 [32] - 聚类工作负载识别常见子任务 [33] - 选择小模型并匹配GPU分配策略,定制数据微调后部署 [34] - 构建持续反馈闭环优化性能和资源利用率 [35] 行业讨论 - 简单任务(如Amazon产品退款)使用小模型更具成本效益 [36] - 小模型在偏离预设流程时可能不够鲁棒,需预先考虑更多变数 [37] - 小模型遵循"一个程序只做好一件事"的设计哲学,但功能多样性可能增加操作复杂度 [37][38][39]