Workflow
量子位
icon
搜索文档
谷歌Gemini变身免费家教:接入全真模考,错题还能掰碎了讲
量子位· 2026-01-22 13:39
Gemini在SAT备考领域的应用 - 谷歌推出免费通过Gemini进行SAT模拟考试的功能,为备考学生提供福利,可立即获得分数并讲解错题 [1] - 该功能与老牌教育机构The Princeton Review合作,整合了其经过验证的一整套SAT模拟题,有用户表示这使其花费1500美金购买的同类服务显得不划算 [7][8] - 模拟系统高度复刻真实SAT流程,分为阅读与写作、数学两大模块,每个模块细分为两个章节,难度循序渐进,并提供高度定制化设置,如关闭倒计时、立即显示答案、开启题目提示等 [9] - 实测体验中,数学部分题目被认为对中国学生较为简单,例如出现“如果4s=28,那么8s+13是多少?”这类题目 [10][11] - 在一次数学测试中,用户用时41分钟(模块1用时13:48分钟,模块2用时27:12分钟),获得710/800的分数,并可按知识点(如高等数学、代数等)查看详细答题情况与错题正确答案 [12] - 体验过程中发现一个小bug,一道读表题因表格未显示而无法作答 [13] - 该功能的核心价值在于错题解析,Gemini能将解题思路详细拆解,帮助用户定位薄弱环节,实现从盲目题海战术到精准私教课程的转变 [14][15][16] - 谷歌透露SAT只是第一步,未来计划将此类服务扩展到更多标准化硬核考试 [17] Gemini的产品化与商业化路径 - 谷歌正通过引入专业数据,推动Gemini在多个垂直行业成为解决具体问题的专家,例如在健康领域通过Fitbit变身懂身体数据的私人医生,在代码领域成为Android Studio中的编程助手 [19] - 公司的另一层战略是将Gemini能力深度融入用户的数字生活,使其无处不在 [20] - 在搜索领域,通过在搜索框中推广AI Overviews功能,Gemini能直接整理并呈现复杂问题的答案,旨在重构搜索体验并守住搜索引擎的流量入口 [21] - 在生产力套件中,Gemini正实现对Gmail和文档等数字资产的全面渗透 [23] - 最新发布的“Personal Intelligence”功能由Gemini 3模型驱动,打通了Gmail、相册、YouTube和Search四大核心应用,能整合用户过去10年分散在各应用的数据,实时串联成完整的个人生活图谱 [24] - 在硬件层面,Gemini正在抢占入口,例如在安卓系统上已全面接管Google Assistant的位置,利用端侧模型Gemini Nano提供系统级的屏幕感知能力,可直接理解当前APP界面内容并响应提问 [25] - 谷歌甚至与竞争对手苹果达成深度合作,苹果下一代基础模型将完全基于Gemini模型和云技术构建,预计年内上线的“个性化Siri”将由Gemini提供支持 [26] - 谷歌选择的商业化落地策略是整合个人数据与系统底层,而不仅是模型的智商竞争 [27]
57.1%的人分不清真假!Runway新视频模型太爆炸
量子位· 2026-01-22 13:39
Runway Gen 4.5模型的核心能力 - 全新Gen 4.5模型主打图生视频,在镜头控制和故事叙事能力上显著提升[8][9] - 模型能在5秒内快速生成包含近景、中景、远景三个镜头的视频[11] - 在1000人参与的调查中,只有约一半(57%)的人能分辨出该模型生成的视频与真实视频的区别[11][21] 模型在镜头控制与一致性方面的表现 - 即便镜头晃动,人物面部仍保持较高一致性[12] - 在快速运动场景下,如骑飞行章鱼,人物面部细节稳定不崩坏[13] - 复杂场景中,如巨型毛绒猩猩在纽约街头,镜头比例、透视逻辑及主体与背景的光影一致性处理得当[15] - 模型具备精准的镜头控制能力,包括景别、角度、运动轨迹及切换节奏,输出效果接近真实摄影语言[16] - 通过图像参考和内部优化,模型实现了更稳定的角色一致性,主体在不同镜头中的跨帧效果更佳[16] 模型在长故事叙事与连贯性方面的进步 - 模型长故事表达能力增强,能承载更长时序的内容结构,视频完整度和长度大幅提升[16] - 多个镜头之间的情节逻辑性更强,叙事表达比上一版本更到位[16] - 在长达两分多钟的剧情视频中,即便在同一场景多次切换镜头位置和动作,画面空间关系和镜头衔接依然保持连贯,无明显跳轴或场景漂移问题[18] - 用户制作的视频展示了出色的镜头漂移感,能流畅切换特写与远景镜头[18] 视频生成行业的整体发展趋势 - 从去年年底至今,视频模型能力进入新一轮升级期,各厂商发布节奏密集[23][35] - 行业整体趋势对视频模型的真实度和一致性要求被整体抬高,包括纹理与细节保真、光影与氛围、整体画面质感等[25][26] - 模型越来越注重理解并遵守现实世界的物理规律,在跨帧表现上要求更自然[27] - 声画同步能力显著提升,模型可直接生成配套音频,唇形同步精度提高,即使在侧脸、极端角度或多人对话场景也不易崩坏[28][30] - 局部控制精细化成为重要趋势,支持单独编辑局部区域而无需重新生成整段视频[28] - 支持更长的生成时长,10至60秒的视频生成区间变得常见,竖屏原生视频逐步占据主流[28] - 视频生成方式更加多元,从图生视频到音频生视频,创作路径更加灵活[28] - 主流视频模型的能力已明显接近可商业化应用、具备普适性的水平[34]
Video版的Deep Research来了?先浏览再定位后精读:精度提升token消耗反降58.3%
量子位· 2026-01-22 13:39
文章核心观点 - 当前AI智能体在开放网络视频浏览与理解方面存在重大盲区,现有方法在精度与成本之间难以两全,研究团队提出的Video-Browser智能体及其金字塔感知架构,通过模拟人类“浏览-定位-精读”的认知过程,有效解决了这一矛盾,在保持高精度的同时大幅提升了效率[1][2][4][5][9][10][27] 现有视频处理方法的困境 - 视频是互联网上信息密度最高的模态,但现有AI智能体普遍存在视频处理盲区[2][4] - 现有方法面临两难困境:直接视觉推理方法效果好但计算成本极高,长视频会导致上下文爆炸;文本摘要方法成本低但会丢失关键的视觉细节[8] Video-Browser智能体架构 - 研究团队提出名为“金字塔感知”的架构,将视频处理过程视为一个计算量逐级增加、处理数据量逐级减少的金字塔[10][11] - 智能体包含三个核心组件:规划器、观察者和分析师[13] - 核心的观察者采用三层金字塔机制:第一层利用LLM分析视频元数据进行语义过滤,以零视觉成本快速剔除无关内容;第二层结合字幕和稀疏采样帧进行稀疏定位,找出可能包含答案的时间窗口;第三层在锁定的极短时间窗口内进行高帧率解码和精细视觉推理,将昂贵计算资源集中于最有价值的片段[14][15][16] 基准测试Video-BrowseComp - 为衡量真正的智能体能力,研究团队构建了Video-BrowseComp基准测试,其设计原则是“难以发现,易于验证”,要求智能体必须具备强制视频依赖能力[6][17] - 基准测试包含三个难度等级:第一级为有明确关键词的显式检索;第二级为需要理解描述的隐式检索;第三级为最难的、答案分散在多个视频中、需要拼凑线索的多源推理[18][19][20] 实验结果与性能 - 性能提升:基于GPT-5.2的Video-Browser在Video-BrowseComp上达到26.19%的准确率,相比直接视觉推理基线提升了37.5%[21] - 效率飞跃:得益于金字塔感知架构,智能体的Token消耗降低了58.3%[22] - 打破垄断:该方法在视频任务上的表现甚至优于OpenAI的o4-mini-deep-research模型[22] - 具体数据:在基准测试中,VideoBrowser (GPT-5.1) 的总体准确率为26.19%,在难度一、二、三级上的准确率分别为37.60%、11.29%和4.35%[23] 案例研究 - 以电影《白日梦想家》中主角口袋里的笔的颜色为例,展示了不同方法的差异:直接视觉推理因信息过载而失败;文本摘要因缺失细节而失败;而Video-Browser通过金字塔感知成功定位特写镜头并识别出笔为红色[24][25][26] 总结与资源 - Video-Browser是迈向智能体开放网络视频浏览的重要一步,通过模拟人类认知过程解决了精度与成本的矛盾[26][27] - 该工作的所有代码、数据和基准测试均已开源,旨在为社区提供新的研究支点[28][29]
马斯克下场抢人!xAI组建「人才狙击队」,极客版HR年薪168万
量子位· 2026-01-22 10:12
公司战略与招聘创新 - 马斯克亲自领导,xAI组建了一支直接向其汇报的“AI人才狙击队”,旨在快速、大规模地招聘优秀人才[1][2][3] - 该岗位被称为“人才工程师”,而非传统HR,要求由具备工程思维的“极客”担任,用工程师招工程师[6][7][9] - 招聘体系强调工程化,团队需亲力亲为参与全流程,并探索熟人推荐、线下活动、竞赛选拔等非常规渠道,而非依赖LinkedIn等常规市场[9][11][12] - 对应聘者要求极高:需具备技术直觉、熟悉Vibe coding、有动手做产品的经历、拥有极强的人际交往能力,并曾在高人才密度机构工作且有成功推荐/招聘经验[12][13][14][16] - 该岗位年薪范围为12万至24万美元(约84万至168万人民币),并配套股权等其他福利,公司希望能在两周内组建完成此团队[16][17] 公司扩张与业务进展 - xAI正处于全速扩张阶段,官网已放出数据中心、工程、金融、基础模型、基础设施等一长串岗位需求[24][25] - 公司第二座超算集群Colossus 2已正式投入运行,马斯克称其为全球首个GW级超算集群,并计划在4月升级至1.5 GW[27][28] - 有爆料称Grok 5将基于功率达1 GW的Colossus 2训练,参数预计达到约6万亿,是Grok 4的两倍以上,随着Colossus 2上线,Grok 5可能进入关键阶段[29][31] - xAI刚刚完成了200亿美元的E轮融资,为业务扩张提供了充足的资金支持[32][33] 行业竞争与人才环境 - 在极致技术导向的AI时代,科技公司对顶尖技术人才的渴望空前,模型背后的顶尖研究员数量很大程度上决定了智能的上限[18] - xAI的薪酬在行业中并非顶级,其“人才狙击队”年薪天花板为24万美元,而Meta最高的软件工程师年薪可达48万美元,相关AI岗位多在20万美元上下[34][35] - 马斯克的招聘策略不依赖天价薪酬,更强调绩效、使命感以及与领袖共事和公司愿景带来的吸引力,此前已成功吸引多名Meta高级工程师“降薪跳槽”[36][37][38][39] - 行业人才争夺战激烈,此前Meta的扎克伯格也曾亲自挂帅招聘,并为顶尖人才提供高达上亿美元的年薪,甚至亲自上门拜访招募[50][51][52][54] 公司文化与工作强度 - xAI的文化与马斯克长期推崇的工程文化高度一致,希望所有人都能是工程师,理解并解决技术问题[21][22] - 公司工作强度极大,有团队已连续四个月高强度冲刺,办公室配备了睡眠舱和双层床[41] - 员工需时刻担心被优化,此前有接近三分之一的数据标注团队被裁,且马斯克以对低绩效者容忍度低著称,特斯拉时期曾有“Elon的愤怒解雇”现象[44][45][46][48]
让机器人拥有本能反应!清华开源:一套代码实现跑酷、野外徒步两大能力
量子位· 2026-01-22 10:12
项目核心定位与目标 - 项目旨在为“本能级”人形机器人运动智能研究提供一个统一框架,以解决感知与运动割裂、工具链不通用两大行业痛点 [2] - 项目定位为模块化、可灵活配置的全链路工具包,让科研人员无需重复造轮子,专注突破核心技术 [1] - 整套工具包从算法设计、环境搭建到真机部署,全链路围绕“本能级”智能核心,支持高动态多接触动作的精准训练与野外复杂地形的稳健移动 [3] 框架设计与通用性验证 - 采用模块化设计,科研人员可根据研究需求自由组合工具模块,快速适配不同研究方向,无需从零搭建 [5] - 通过两大前沿工作验证了其通用性:一是高动态动作研究“DeepWhole-bodyParkour”,二是野外稳健移动研究“Hiking in the Wild” [3] - 在野外复杂地形中,机器人可实现稳定高速移动,最高速度达2.5米/秒 [9] 核心工具包功能详解 - **InstinctLab**:支持多样化环境生成,可导入真实场景扫描或一键生成训练场景 [10] - **InstinctLab**:内置“运动数据管理模块”,可导入人类动作捕捉数据并自动重定向适配机器人形态 [10] - **InstinctLab**:启用“深度感知融合插件”后,即便初始位置偏差50厘米,机器人也能自主修正,成功率100% [10] - **InstinctLab**:包含地形生成、地形边缘检测、足部体积点安全模块及“Flat Patch Sampling”模块,以训练机器人“本能避坑”和识别可行目标 [11] - **InstinctLab**:内置深度相机噪声模拟、虚拟障碍物生成、自适应采样等插件,可模拟真实感知条件并加速训练 [12] - **instinct_rl**:采用模块化强化学习架构,核心围绕“本能级”智能设计,可自由切换训练策略 [14] - **instinct_rl**:支持批量实验配置,可同时测试不同参数对“本能反应”的影响,快速迭代最优方案 [14] - **instinct_onboard**:集成ONNX加速、ROS2部署工具,支持Unitree G1等主流人形机器人,无需手动适配硬件接口 [15] - **instinct_onboard**:支持数据记录与推理进程分离,以及同一台机器人快速切换研究方向,无需重新实现部署代码 [15] 应用场景与研究成果 - **高动态动作研究 (DeepWhole-bodyParkour)**:聚焦“本能级技巧突破”,让机器人像运动员一样完成跪爬、鱼跃翻滚、高台翻越等多接触动作 [6] - **高动态动作研究**:核心是“感知-动作实时联动”,基于该框架仅需3步即可完成配置 [7] - **野外稳健移动研究 (Hiking in the Wild)**:聚焦“本能级环境适应”,核心是“风险预判+自主避障” [9] - **野外稳健移动研究**:基于该框架仅需切换配置即可落地,实现高速跑步跨越障碍物、跨越沟壑、稳定上下楼梯 [10] 开源价值与对科研社区的影响 - 项目已完全开源,科研者可免费获取覆盖场景搭建、强化学习训练、真机部署全流程的核心工具包及两大研究的完整配置文件 [19] - 为入门研究者提供预设配置,使其能快速启动实验并掌握核心研究流程 [17] - 为进阶研究者提供兼容性支持,使其仅通过切换配置文件即可在同一套工具链中验证融合高动态动作与野外移动的创新想法 [17] - 为项目迭代者提供便利,修改“本能反应”相关参数后无需重新编译代码,可一键重启训练,大大提升迭代效率 [18] - 研究团队计划未来扩展更多机器人硬件支持,并新增更多“本能级”动作库与复杂地形场景 [20]
高通砸钱、雷军入股!刚刚,上海诞生一个183亿手机代工巨头
量子位· 2026-01-22 10:12
上市概况与市场地位 - 公司于2025年1月22日成功在港交所上市,成为港股“消费电子ODM第一股”,开盘价35港元/股,较31港元/股的发行价上涨约12.9%,开盘市值达182.9亿港元 [1][4][6][7] - 公司此前已于2024年3月在上交所主板上市,完成“A+H”股布局,截至发稿时A股最新股价为49.25元/股,市值约231亿元人民币 [2][9] - 本次港股IPO募资总额为16.2亿港元,募资净额约15.21亿港元,并获高通、江西国控、OmniVision等基石投资者共同认购5650万美元(约4.4亿港元) [6] - 小米是公司的重要投资者,在港股上市前持有公司4.94%的股份 [2][51] 业务结构与产品组合 - 公司是全球领先的智能产品和服务提供商(ODM),业务聚焦消费电子领域,构建了涵盖方案设计、硬件创新、软件平台开发、制造及供应链的解决方案矩阵 [11] - 公司采用“1+2+X”业务框架:“1”为核心智能手机业务;“2”为重点发展的AI PC和汽车电子业务;“X”为包括平板电脑、智能穿戴、智能眼镜等在内的新兴消费电子多品类业务 [11][12] - 智能手机是公司业务的主要动力,提供从概念设计到生产制造的全流程服务,2024年智能手机ODM出货量达1.73亿台 [14][15] - AI PC业务已完成端到端团队布局,并于2024年第三季度推出首款搭载高通骁龙处理器的笔记本电脑产品 [17][19] - 汽车电子业务自2022年成立团队,已与小米、蔚来等客户建立合作,获得超过十个定点项目 [20] - 在新兴品类中,公司2024年智能眼镜总出货量已超过200万台,在智能手表/手环、智能眼镜等领域的出货量已跃居行业前二 [21] 市场份额与客户情况 - 以2024年消费电子ODM出货量计,公司是全球第二大消费电子ODM厂商,占据22.4%的市场份额 [24] - 在智能手机ODM市场,公司2024年出货量市占率达32.6%,是全球最大的智能手机ODM厂商 [3][26] - 在2024年以出货量计的全球智能手机前十品牌中,公司与其中八家建立了业务合作,平均合作年限超过五年 [16] - 公司客户涵盖小米、三星、联想、荣耀、OPPO、vivo等知名品牌,其中小米是公司的最大客户 [3][22] - 2024年,前五大客户贡献了公司总收入的82.2% [34] 财务表现分析 - **营业收入**:2022年至2024年,公司营业收入分别为293.4亿元、271.9亿元和463.8亿元人民币,2024年大幅增长主要受5G手机放量及AIoT爆发驱动 [27][29]。2025年前9个月,营业收入为313.3亿元,同比下滑10.3%,主要因公司战略调整,放弃低毛利订单所致 [28][29] - **收入结构**:智能手机是公司主要收入来源,2022年至2024年及2025年前9个月,其收入占比分别为82.7%、80.3%、77.9%和69.3%,呈下降趋势 [32]。同期,AIoT及其他产品收入占比则从6.5%增长至9.2%、12.0%和17.9%,增速明显 [32] - **毛利率与利润**:2022年至2024年,公司毛利率分别为8.1%、9.5%和5.8%,2024年下滑主要因原材料采购价上涨及战略性市场拓展 [36][37]。2025年前9个月毛利率回升至8.3%,得益于项目品质提升、放弃低利润项目及原料价格趋稳 [38]。同期,公司净利润分别为5.62亿元、6.03亿元、4.93亿元,2025年前三季度净利润为5.14亿元,已超2024年全年 [39] - **研发投入**:公司研发和工程团队约5200人,2022年至2024年及2025年前三季度,研发开支分别为15亿元、16.9亿元、20.8亿元和19.5亿元,占同期总收入比重分别为5.1%、6.2%、4.5%和6.2% [41] - **现金状况**:截至2025年三季度末,公司现金及现金等价物为68.5亿元人民币 [42] 公司发展历程与创始人 - 公司成立于2004年,创始人、董事长为杜军红,拥有浙江大学电机与电器博士学位,在创办龙旗科技前曾为中兴通讯高管 [43][45] - 公司最初以IDH(独立设计公司)模式起家,后逐步发展为消费电子ODM巨头 [47] - 公司于2005年通过离岸实体在新加坡证券交易所上市,后于2020年从新交所退市,转战A股市场,并于2024年3月成功在沪市主板上市,上市首日收盘价较发行价暴涨99.69% [49][50] - 公司成立同年获得IDG资本和招商局资本的天使轮融资,后续A轮融资引入了小米科技、顺为资本及基石资本等投资者 [51]
xAI工程师播客聊太嗨,马斯克解雇了他
量子位· 2026-01-21 18:00
核心观点 - 一名xAI工程师在播客中透露了大量公司内部机密信息,包括核心项目MacroHard的技术路线、部署计划以及公司文化,随后该工程师离开了xAI,引发了关于其离职原因及信息泄露是否为有意为之的广泛讨论 [1][11][96][97] MacroHard项目详情 - **项目定位与概念**:MacroHard是一个“人类模拟器”,定位为数字世界的Optimus,旨在将任何需要键盘、鼠标、屏幕决策的工作数字化,本质上是通用Agent [19][20] - **内部测试方式**:以内测形式直接以“员工”身份上线,拥有名字并出现在组织架构图中,导致有员工误将AI同事当作真人 [22][24][25] - **企业定制服务**:为企业定制“虚拟员工”,通过访谈和观察收集大量“隐性知识”作为训练Agent的Context [26][27][28] 技术路线与进展 - **核心策略**:押注小模型路线,不追求Scaling,而是依靠“迭代速度”和推理速度取胜 [6][30][33] - **性能指标**:内部要求模型速度必须比人类快至少1.5倍,最新进展显示速度已达到人类的8倍,且智力未明显下降,泛化能力好 [31][34][35] - **技术优势**:小模型具有更高的“权重效率”,类似于FSD处理未见路况的能力,同时训练成本低、周期短,支持快速试错 [37][38][39] - **研发模式**:可同时并行尝试20多种全新的模型架构,部分从预训练阶段就开始分叉迭代 [41][42] 算力部署与基础设施 - **颠覆性部署方案**:考虑租用北美约400万辆特斯拉汽车的闲置算力来部署MacroHard,将车载电脑视为天然的算力节点 [7][44][47] - **潜在商业模式**:消费者购车时可选择“出租算力”选项,以抵扣每月分期付款,将特斯拉车队转化为分布式算力网络 [49][50] - **超算集群建设**:Colossus 1数据中心从开工到建成仅用122天,利用了“临时用地租约”的制度漏洞快速推进;Colossus 2在不到一年内突破1GW,成为全球最大算力集群 [51][52][54][56][57] - **强悍的硬件团队**:超级计算团队执行力极强,能做到机架当天搭好、当天开始训练,甚至几小时内投入使用 [59] 公司组织与文化 - **扁平化架构**:公司架构仅三层:工程师、创始人/少数管理者、马斯克,非工程师可能不到8人,连销售团队和管理层也多是工程师 [69][70] - **自下而上运作**:几乎不存在传统“管理”,工程师主动提出方案并向上递送,等待拍板,无需同步、审批或等待点头 [71][72][77] - **极致执行速度**:想法可当天实现、演示并获取反馈(包括来自马斯克),出现问题任何员工都可直接修复并负责后续工作 [77][79][80][81] - **高压工作环境**:不设明确截止日期,一切任务都感觉“昨天就应该完成”,通宵加班是常态,办公室配备睡眠舱和双层床 [86][88][89] - **信息流动方式**:项目缺乏完整的全局视图,信息通过全员会议或私下聊天拼凑而成 [84] 事件影响与舆论反应 - **信息泄露规模**:工程师透露的信息被视作“机密等级”,涵盖了技术路线、部署计划和内部文化等核心内容 [4][5][8] - **当事人离职**:播客发布后不久,该工程师宣布已离开xAI,网友普遍猜测其因泄密被解雇 [11] - **舆论猜测**:有观点认为此次泄密可能是公司默许的公关行为,旨在最大化宣传效果;也有观点认为工程师只是过于热爱工作而“聊嗨了” [96][97][98]
Node.js之父:手写代码已死
量子位· 2026-01-21 18:00
文章核心观点 - 两位后端技术领袖(Node.js之父与Redis之父)公开发声,认为人类亲手写代码的时代已经结束,AI已永久性地改变了编程行业[1][2][7] - AI编程工具已广泛渗透,大幅提升了开发效率与生产力,编程工作正从关注语法细节转向关注目标意图[12][13][24] - 尽管手写代码时代落幕,但程序员的工作不会消失,其角色将从代码编写者转变为需求提出者、问题解决者和代码维护者[30][35][40] 行业技术领袖观点 - **Node.js之父 Ryan Dahl** 认为人类写代码的时代已经结束,其观点在社交媒体上获得四百万围观[2][4] - **Redis之父 Salvatore Sanfilippo** 同样指出编程已被AI永久改变,并提醒人们不要陷入反AI的炒作[7][8] - **Linux之父 Linus Torvalds** 态度发生转变,从批评AI生成代码转为认可Vibe编程是绝佳入门方式,并已在个人项目中使用,同时强调程序员需长期维护AI生成的代码[32][34][35] - **英伟达CEO黄仁勋** 认为开发者的首要职责在于发现并解决问题,而不仅仅是编写代码[36][38] AI编程工具发展与应用现状 - **工具普及与效率提升**:基于OpenAI Codex的GitHub Copilot已帮助开发者开发提速50%以上[15] - **全栈开发能力**:Cursor、Claude Code等工具能完成全栈开发、调试优化、DevOps部署整套流程[16] - **企业级应用广泛**:国内外企业级开发已大部分用上AI,Stack Overflow报告显示84%的开发者会在工作中使用AI工具[17][24] - **生产力提升共识**:69%的开发者认为使用AI工具提高了生产力[24] AI编程的具体产出案例 - **Claude Code案例**:新智能体Cowork的全部代码由Claude Code编写,开发时间仅10天左右[18][19] - **字节跳动TRAE案例**:其原生编程工具TRAE在2025年一年内编写了1000亿行代码,相当于300万名程序员全年的工作量,团队正用TRAE开发TRAE自身[22][23] 行业趋势与影响 - **编程范式转变**:代码工程正在从关注语法转向关注目标意图[12] - **渗透率预测**:Gartner预测到2030年,超过80%的企业将深度使用AI编写代码[26] - **招聘要求变化**:不少公司在招聘程序员时,已要求熟练使用AI编程工具[28] - **开发者角色演变**:软件工程师的工作从写代码转变为提需求,AI接管“手活”,人类保留“脑活”[40][41]
突发!xAI联创杨格过劳病离职,给马斯克干活压力山大
量子位· 2026-01-21 15:47
核心事件:xAI联合创始人杨格因健康问题离职 - 文章核心观点:xAI联合创始人杨格因长期高强度工作导致免疫系统出现问题,确诊莱姆病而离职,该事件引发了外界对马斯克旗下公司高强度工作文化的审视,并揭示了xAI乃至马斯克旗下公司高管与核心员工的高流动率现象 [1][2][4][15][34] 离职事件详情 - 离职人员:xAI联合创始人杨格,他是Grok的主要架构师之一,主导了张量程序系列框架 [9] - 离职原因:因长期高强度工作导致免疫系统被透支,确诊莱姆病,症状表现为持续性疲劳、精力下降和身体虚弱 [4][5][6][7] - 个人背景:30多岁,本硕就读于哈佛大学,师从数学家丘成桐,曾由沈向洋推荐在微软工作近6年,离职前在xAI担任联合创始人 [9][10][12][13] xAI的工作文化与管理风格 - 高强度与快节奏:公司强调极致的执行速度,任务被迅速提出并必须迅速完成,几乎没有明确的截止日期 [22][23] - 激励方式极端:马斯克曾与员工打赌,若在24小时内完成一次GPU训练任务,就奖励一辆起售价约7万美元(折合人民币50多万元)的Cybertruck [20][21] - 扁平化管理:组织层级被压缩到极致,仅有三层:个人贡献者、联合创始人以及马斯克本人,这使得核心成员需要长期承受来自创始人的直接压力 [38][39] - 文化争议:有观点认为这种文化将员工逼至极限,并可能导致资源浪费;也有观点认为这能筛选出最强团队,推动快速迭代和增长 [40][42] xAI及马斯克旗下公司的人员流动情况 - xAI高管离职频繁:自公司成立不到三年,已有多位核心成员离职,包括联合创始人Igor Babuschkin(2025年8月)、Christian Szegedy(2025年2月)、创始工程师Kyle Kosic(2024年4月),以及基础设施工程负责人、首席财务官、商业负责人、总法律顾问等 [2][26][27][33] - 高管更迭率数据:马斯克直接下属的高管更迭率为44%,远高于Meta、亚马逊和Netflix的9%;特斯拉的高管更迭率为27%,几乎是行业平均水平的两倍 [34][35][36] - 离职者观点:前联创Igor Babuschkin曾公开表示,许多AI公司未能给工程师足够的时间和心态去做出最好的工作,并称赞早期Google注重卓越、专注和足够休息的文化 [17] 行业与公众反应 - 公众批评:网友将杨格的离职归咎于xAI的过度工作文化,呼吁重新审视员工健康与工作强度的平衡 [15][16] - 文化对比:有观点将马斯克的高强度、高流动率文化与早期Google的典范文化进行对比 [17] - 监管风险:另有观点指出,当新业务或激进策略遭遇监管阻力时,部分高管可能选择离开以规避被追责的风险 [41]
微软打包收购OpenAI?就差一点!
量子位· 2026-01-21 15:47
OpenAI董事会罢免事件与微软的深度介入 - 2023年11月,OpenAI董事会无预警罢免首席执行官萨姆·奥特曼,事件在五天内经历了新CEO上任、员工集体施压、奥特曼回归的极限拉扯 [9] - 在奥特曼被正式裁掉前十分钟,OpenAI联合创始人米拉·穆拉蒂紧急致电微软CEO萨蒂亚·纳德拉告知消息,微软最初对此猝不及防 [10][11] - 事件发生后,微软迅速行动,在周六一早由纳德拉联系奥特曼,并于当晚成立了一家名为“微软RAI”的新子公司,法律手续和文件全部到位,计划资本化以吸纳奥特曼及其支持员工 [12][13] - 微软为新公司准备了250亿美元资金,用于支付OpenAI员工的薪酬和未兑现股权,以防止人才流向谷歌或亚马逊等竞争对手 [14][15] - 微软的行动为OpenAI员工集体辞职逼宫董事会提供了底气,近800名员工签署联名信要求董事会辞职并让奥特曼回归,否则将集体离职加入微软,这最终促成了奥特曼的回归 [5][6][20] 微软与OpenAI合作关系的演变与博弈 - 合作初期,微软高层曾对OpenAI的商业化能力充满疑虑,内部邮件质疑其是一场缺乏回报的幻梦 [7] - 2016年11月,微软与OpenAI正式宣布合作,并在随后的十年通过不断追加投资成为其最大投资方之一 [31] - 2018年,微软内部曾反对继续赞助OpenAI,其AI领导者哈里·舒姆直言看不出OpenAI在通用人工智能(AGI)上能取得突破 [35] - 2019年,OpenAI进行重大重组,在非营利组织下设立利润上限实体以筹集资金,微软追加10亿美元投资,换取OpenAI的独家云计算权利和商业使用许可,并占据总投资额的85%,拥有实际否决权 [39] - 为满足微软的持续投资要求,奥特曼在内部定下“一亿美元营收”的死命令并扩张市场团队 [41] - 2022年底ChatGPT的推出验证了微软的投资,微软开始推动OpenAI将产品商业化,纳德拉多次询问付费订阅激活进度和用户增长情况 [42][43] - 2024年底,OpenAI再次修改架构,取消利润上限,彻底转向盈利模式以获取软银等资本融资 [45] - 转型后,OpenAI与微软达成新协议,承诺未来将向微软采购2500亿美元云计算资源,但同时要求可以自由选择其他云服务商,排除了微软的独家性 [46] - 完成转型的OpenAI估值达到5000亿美元,标志着其从科研机构向资本巨兽的蜕变 [47] OpenAI寻求独立性与多方势力的角力 - 奥特曼始终寻求脱离“微软附属”的标签,在2024年重组计划落地仅6天后,便与亚马逊签下一份高达380亿美元的基础设施协议,解除了新工作负载必须优先由微软承接的约束 [48][49] - OpenAI首席财务官莎拉·弗里尔表示,公司正从依赖单一合作伙伴转向分布式算力架构,以防止被任何一家大厂卡住脖子 [62][63] - 埃隆·马斯克对OpenAI发起索赔1340亿美元的诉讼,指控其在2019年转向营利模式并倒向微软是“蓄谋已久的使命欺诈”,违背了公司成立时作为非营利机构的初衷 [52][54][55] - 法庭文件披露,马斯克早在2017年就曾要求获得公司51.2%的股份以拥有绝对话语权,其离场部分原因是权力分配问题,并曾因个人厌恶亚马逊创始人杰夫·贝佐斯而否决了技术上更合适的亚马逊方案 [58] - 除马斯克外,软银(代号Project Sakura)和华尔街金融资本也对OpenAI虎视眈眈,等待分账时机 [60][61] 事件影响与行业动态 - OpenAI董事会罢免事件期间,其客户纷纷联系谷歌云、Anthropic、Cohere等竞争对手 [17] - OpenAI的首席研究员马克·陈证实,公司动荡期员工不断收到来自各大实验室的挖角电话 [16] - 事件最终以奥特曼回归、OpenAI重组董事会告终,微软获得了董事会观察员席位,可以参加会议但没有投票权 [22][24] - 在奥特曼回归前,微软高层已深度参与OpenAI新董事会人选的确定,微软CTO凯文·斯科特、总裁布拉德·史密斯和CEO纳德拉在群聊中积极讨论并给出意见 [20][21]