Workflow
Reinforcement Learning
icon
搜索文档
NVIDIA Launches Vera CPU, Purpose-Built for Agentic AI
Globenewswire· 2026-03-17 03:30
产品发布与核心性能 - 英伟达发布全球首款专为智能体AI和强化学习时代打造的处理器NVIDIA Vera CPU [1][18] - Vera CPU相比传统机架级CPU,能效提升两倍,速度提升50% [1][18] - Vera CPU具备最高的单线程性能和每核带宽,为大规模AI服务提供更高的吞吐量、响应速度和效率 [3] 技术架构与设计 - Vera CPU采用88个定制设计的Olympus核心,并利用NVIDIA空间多线程技术,每个核心可运行两个任务,为多租户AI工厂提供一致、可预测的性能 [11] - 其集成了第二代低功耗内存子系统,基于LPDDR5X内存,提供高达1.2 TB/s的带宽,带宽是通用CPU的两倍,功耗减半 [12] - 通过结合高性能CPU核心、高带宽内存子系统和第二代可扩展一致性结构,Vera能在智能体AI常见的高负载条件下实现更快的响应 [10] - 作为NVIDIA Vera Rubin NVL72平台的一部分,Vera CPU通过NVLink-C2C互连技术与GPU配对,提供1.8 TB/s的一致性带宽,是PCIe Gen 6带宽的7倍 [7] 生态系统与合作伙伴 - 主要超大规模云厂商与英伟达合作部署Vera,包括阿里巴巴、CoreWeave、Meta和Oracle云基础设施 [4] - 全球系统制造商合作伙伴包括戴尔科技、HPE、联想、超微等 [4][19] - 广泛的制造和基础设施合作伙伴已采用Vera CPU,包括华硕、富士康、广达云技术等超过15家公司 [19][20] - Vera CPU机架基于NVIDIA MGX模块化参考架构构建,获得全球80个生态系统合作伙伴支持 [6] 客户采用与早期测试结果 - AI原生软件开发公司Cursor采用Vera CPU以提升其AI编程智能体的性能和效率 [13] - 流式数据和AI平台Redpanda测试Vera运行Apache Kafka兼容工作负载,延迟降低高达5.5倍 [14] - 计划部署Vera CPU的国家实验室包括莱布尼茨超级计算中心、洛斯阿拉莫斯国家实验室、劳伦斯伯克利国家实验室NERSC中心和德州高级计算中心 [14] - 德州高级计算中心在六项科学应用中测试Vera平台,获得了令人印象深刻的早期结果,其每核性能和内存带宽代表了科学计算的巨大进步 [15] 产品配置与可用性 - 英伟达发布了新的Vera CPU机架,集成256个液冷CPU,可支持超过22,500个并发CPU环境,每个都能以全性能独立运行 [5] - Vera系统合作伙伴提供双路和单路CPU服务器配置,适用于强化学习、智能体推理、数据处理、编排等多种工作负载 [8] - 所有配置的Vera系统均集成NVIDIA ConnectX SuperNIC网卡和BlueField-4 DPU,以加速网络、存储和安全 [9] - NVIDIA Vera CPU已全面投产,将于今年下半年通过合作伙伴上市 [21]
腾讯研究院AI速递 20260311
腾讯研究院· 2026-03-11 00:01
一、Claude推出多智能体代码审查系统 - Anthropic为Claude Code引入多智能体代码审查系统,自动调度智能体团队并行审查代码,部署后获得实质性审查意见的PR比例从16%飙升至54% [1] - 在超千行大型PR中,84%会收到审查意见,平均发现7.5个问题,被标记为不正确的审查结果不到1% [1] - 审查基于Token计费,平均每次15至25美元,支持自定义审查规则,目前面向团队版和企业版用户提供研究预览 [1] 二、LeCun创办企业完成巨额种子轮融资 - 图灵奖得主Yann LeCun创办的AMI Labs完成10.3亿美元种子轮融资,估值达35亿美元,团队分布在巴黎、纽约、蒙特利尔和新加坡 [2] - 公司目标是构建基于JEPA架构的世界模型,面向工业控制、机器人、可穿戴设备和医疗等高可靠性场景 [2] - DiT架构提出者谢赛宁加盟担任首席科学官,首个实际应用推出前至少需要一年研究时间,首个合作伙伴为医疗AI独角兽Nabla [2] 三、微软发布Copilot Cowork全面接管Office - 微软发布Copilot Cowork全面接管Excel、Word、PPT和Outlook,采用Anthropic Claude模型驱动推理,可在后台持续推进十余个任务 [3] - 四大核心场景包括自动整理日程、准备客户会议、深度调研生成交付物、执行从竞品分析到产品发布的计划 [3] - 定价为M365企业版基础上额外30美元/月,新推出的E7套餐99美元/月,目前处于有限客户研究预览阶段 [3] 四、腾讯混元开源世界模型强化学习框架 - 腾讯混元3D团队开源业界首个面向世界模型的强化学习后训练框架WorldCompass,解决预训练世界模型指令失效问题 [4] - 框架通过切片级采样降低计算复杂度,并引入基于3D基础模型的交互跟随评分与视觉质量评分互为正则 [4] - 在复合动作场景下交互准确率从20%提升至55%,在斯坦福WorldScore基准上取得更优评分 [4] 五、智谱上线AutoClaw本地版本 - 智谱正式上线AutoClaw,macOS和Windows均支持一键安装,自动接入飞书等即时通讯工具,提供免费额度 [5][6] - 内置智谱专为OpenClaw场景优化的Pony-Alpha-2模型,集成AutoGLM Browser-Use能力 [6] - 封装50+主流Skills与API覆盖多场景,支持接入DeepSeek、Kimi、MiniMax、GLM等任意模型的API [6] 六、Claude与军事系统合作应用于美伊冲突 - 美国军方在美伊冲突中利用Palantir的Maven智能系统嵌入Claude模型,首日解析150+信息流提供1000+打击选项 [7] - Maven系统整合多源数据,Claude自动生成目标建议和精确坐标,将传统需数周的战斗计划变为实时行动 [7] - 截至目前美以已打击超3000目标,使用Maven后原本2000人的工作量20人即可完成 [7] 七、Figure机器人实现全程自主家务 - 估值390亿美元的Figure发布最新进展,搭载Helix 02系统的机器人全程自主完成客厅整理 [8] - Helix 02采用三层系统架构,分别负责语义推理任务拆解、高频感知转化和基于人类运动数据训练的全身控制 [8] - 团队仅补充新数据即让系统掌握复杂技能,替代了109504行手工C++控制代码 [8] 八、AI发布全球科学家社区O-DataMap - AI系统OALL发布O-DataMap,将全球论文中的实验数据映射到二维坐标系,首次将人类科技研究铺成可导航地图 [9] - 三层使用场景包括判断领域热度与成熟度、定位单篇研究的知识谱系、获得研究空白评估和期刊定位建议 [9] - 地图实时生长,AI流水线持续解析新论文,输入学者姓名或论文可看到其影响力如何跨领域扩散 [9] 九、a16z发布全球AI产品Top100报告 - a16z第六版全球AI产品Top100显示ChatGPT周活9亿用户领先,但Claude付费订阅同比增长超200%、Gemini增长258% [10] - ChatGPT走超级应用路线覆盖85+品类,Claude聚焦专业用户,两个平台仅11%应用重合 [10][11] - OpenClaw成为GitHub star数最高项目,Manus被Meta以约20亿美元收购,通用Agent与Vibe Coding工具重塑竞争格局 [11] 十、陶哲轩对谈OpenAI高管讨论AI与数学 - OpenAI内部核心指标“自主运行刻度”已从去年的几分钟向几天迈进,模型犯错概率显著下降 [11] - 陶哲轩表示AI已成为日常研究工具,埃尔德什问题长尾中已有二三十个在最低限度人类监督下被AI解决 [11] - OpenAI的Mark Chen指出数学的形式化验证系统为强化学习提供了“无限次廉价试错”机制 [11]
AI大神10亿美元创业,不走寻常路
搜狐财经· 2026-02-21 15:38
公司融资与估值 - 英国AI研究学者David Silver为其初创公司Ineffable Intelligence筹集10亿美元种子轮融资[1] - 该轮融资由红杉资本领投 若最终敲定将成为欧洲史上规模最大的初创公司种子轮融资[1] - 公司当前估值约为40亿美元 相关条款仍在谈判中可能随时改动[3] 创始人背景与行业影响 - 创始人David Silver职业生涯传奇 十年前主导开发了击败围棋冠军的AlphaGo和击败《星际争霸》顶尖玩家的AlphaStar[3] - 其于2014年谷歌收购DeepMind后 成为Gemini等模型发展的关键推手[3] - 创始人于去年底从谷歌DeepMind离职 立即引发了风投机构的激烈竞争[3] 技术路径与战略方向 - 公司计划绕过大语言模型 直接通过强化学习训练AI 最终目标是创造“超级智能”[3] 投资者反应与竞争态势 - 红杉资本合伙人在创始人离职后不久即意图会面 英伟达、谷歌和微软等互联网巨头也意图参与投资[3] - 当前融资规模体现出投资人乐于看见行业顶尖人才单飞创业[3]
Applovin(APP) - 2025 Q4 - Earnings Call Transcript
2026-02-12 07:02
财务数据和关键指标变化 - 第四季度收入为16.6亿美元,同比增长66% [13] - 第四季度调整后EBITDA为14亿美元,同比增长82%,利润率达84%,同比扩大超过700个基点 [13] - 第四季度收入到调整后EBITDA的转化率约为95% [13] - 第四季度自由现金流为13.1亿美元,同比增长88% [15] - 2025年全年收入为54.8亿美元,同比增长70% [15] - 2025年全年调整后EBITDA为45.1亿美元,同比增长87%,利润率达82% [15] - 2025年全年自由现金流为39.5亿美元,同比增长91% [15] - 公司现金余额增至25亿美元 [15] - 第四季度回购并扣留了约80万股股票,价值4.82亿美元 [16] - 2025年全年回购并扣留了约640万股股票,总价值25.8亿美元,全部由自由现金流提供资金 [16] - 截至年底,公司剩余股票回购授权额度约为32.8亿美元 [16] - 过去四个季度,加权平均稀释流通股从3.46亿股减少至约3.40亿股 [16] - 2026年第一季度收入指引为17.45亿至17.75亿美元,环比增长5%-7% [17] - 2026年第一季度调整后EBITDA指引为14.65亿至14.95亿美元,利润率约为84% [17] 各条业务线数据和关键指标变化 - 核心移动游戏业务持续增长,电子商务计划影响扩大 [13] - 电子商务业务已上线一年半,表现良好 [21] - 第四季度,公司以仅限邀请的方式开放了自助服务平台 [21] - 与2024年第四季度相比,现有电子商务客户在2025年第四季度的支出实现了实质性增长 [21] - 电子商务业务在2025年第一季度约占公司业务的10% [129] - 公司平台上的顶级游戏公司同时运行数以万计的广告,而顶级电子商务公司仅运行数百个 [26] - 公司正在与超过100名客户试点基于生成式AI的广告创意工具 [27] - 公司已推出“潜在客户挖掘”产品,允许广告主上传历史购买数据,以优化新客户获取 [88] 各个市场数据和关键指标变化 - 公司平台每日活跃用户超过10亿 [53][112] - MAX市场年规模超过100亿美元 [135] - 公司认为其平台上的广告转化率有潜力从约1%提升至5% [113] - 公司认为移动游戏玩家数量并未出现下降迹象 [10] 公司战略和发展方向和行业竞争 - 公司认为竞争迫使自身创新,并有助于整个生态系统发展 [8] - 公司运营MAX竞价拍卖,是生态系统的基础部分 [8] - 在竞价密度增加时,整个市场蛋糕会扩大,即使公司份额可能缩小,其经济效益仍会增长 [8] - 公司认为AI将大幅降低创作成本,导致内容爆炸式增长,从而使内容发现成为稀缺资源,这正是公司平台的价值所在 [10] - 公司专注于服务小型企业,帮助其成长为大型企业,这一策略在游戏领域已获成功,并计划复制到电子商务等领域 [51][117] - 公司平台被视为一个统一的平台,不计划按垂直领域(如游戏、电商)拆分披露业绩 [23][24] - 公司认为其商业模式(30天内LTV与CAC持平)是世界上最好的商业模式之一 [36][37] - 公司在调解(Mediation)领域具有优势,不仅因为技术好,更因为其提供了最好的广告解决方案,与许多发行商的用户获取支出深度绑定,形成了强大的护城河 [63][64] - 公司认为其广告格式(全屏、强制互动30-60秒以上)是广告主能在全球范围内获得的最佳体验,具有差异化优势 [137] - 公司目前增长的重点是需求侧(获取更多广告主),而非供给侧(获取更多发行商库存),因为转化率有巨大提升空间 [136] 管理层对经营环境和未来前景的评论 - 管理层认为市场情绪与公司强劲的业务表现之间存在脱节 [6] - 公司正提供有史以来最强劲的运营业绩,增长由自身的AI模型驱动 [6] - 休闲游戏满足的是与主机、PC或AAA游戏不同的人类需求,人们总会寻找适合日常生活的娱乐方式 [11] - 公司仅转化了所服务展示量的一小部分,这被视为巨大的长期机会 [11] - 尽管存在典型的季节性因素(第一季度通常比第四季度疲软),但公司预计将实现有意义的环比增长,这反映了游戏业务的持续强势以及电子商务和自助服务客户的扩展 [11] - 公司处于平台发展的早期阶段 [12] - 在2025年的规模和增长水平下,公司实现了“Rule of Forty”指数150(66%收入增长 + 84%调整后EBITDA利润率),这种盈利能力和增长率的结合极为罕见 [15] - 对于AI和LLM(大语言模型)的长期影响,公司认为这将加速内容创作,使内容商品化,从而提升其作为发现平台的价值 [44] - 公司不认为消费者会完全转向与聊天机器人交互而放弃游戏,其核心受众(年龄偏大、女性偏多)仍将持续进行休闲游戏 [45] - 如果LLM提高生产力,人们可能会有更多时间进行游戏娱乐 [46] - 公司对Meta在MAX平台上的竞价活动持开放态度,认为更多竞争有助于扩大生态系统,且Meta主要竞标有ID的流量(约占全屏广告单元的三分之二),并未竞标无ID流量 [58] - 公司强调,每次有新的竞价者加入(如Unity、Liftoff、Moloco、Google),市场都担心会侵蚀其优势,但从未发生,因为公司模型擅长评估展示价值,竞争通常会拿走公司估值较低的展示,而公司仍能从中收取5%的费用 [59] - 公司AXON 2.0模型是该类别中的重大突破,使公司成为市场主导者 [60][76] - 公司认为在无IDFA的环境中,其AXON 2模型具有竞争优势 [75] - 公司对维持当前高利润率水平充满信心,潜在变数是绩效营销支出的扩大,但会以非常纪律严明的方式进行,且投资回报周期短(约30天) [153] - 现金使用的首要优先级是投资于有机增长计划,其次是积极的股票回购计划 [154] 其他重要信息 - 公司文化是拥抱被低估,怀疑的市场有助于凝聚团队专注力并推动执行 [12] - 公司人均收入位居世界前列 [12] - 公司正在测试通过广告获取平台客户,初步测试显示约30天可实现用户终身价值(LTV)与用户获取成本(CAC)持平 [36] - 在自助服务推广中,公司不再设置最低商品交易总额(GMV)门槛,吸引了规模较小的企业 [49] - 公司分享了一个成功案例:一家以色列厨具公司通过其平台,将收入从400万美元增长到1600万美元,并预计今年将达到8000万美元 [49][50] - 公司平台目前主要服务于交易型业务,潜在扩展类别包括金融科技等,潜在客户生成(Lead Gen)业务将在未来几个月成为重点 [52] - 在获取客户方面,除了直接响应渠道,公司也注重品牌建设,并与测量公司(如Triple Whale)等建立合作伙伴关系 [79] - 公司认为其电子商务模型目前已经具备竞争力,性能与大型社交平台等顶级发现渠道相当 [141][147] - 与游戏模型相比,电子商务模型数据渗透率还很低(数千个网站对比潜在数千万个),但模型非常智能,随着数据增加会自我改进 [143][144] - 公司认为每个新广告主不仅带来收入,也为模型提供了数据 [146] 问答环节所有的提问和回答 问题: 关于电子商务机会、自助服务启动的关键学习点、贡献度量化以及功能集(创意自动化)的进展 [20][25] - 电子商务业务表现良好,第四季度以仅限邀请方式开放了自助服务 [21] - 现有客户支出实现实质性增长,新客户通过推荐计划加入 [21][22] - 公司不计划单独披露电子商务贡献,视平台为统一整体 [23] - 创意自动化仍处于早期阶段,游戏公司运行广告数量(数万)远超电商公司(数百) [26] - 公司正通过生成式AI工具帮助广告主自动创建互动页面和视频广告,以提升广告数量和质量 [27][28] 问题: 关于投资者如何理解公司业务模型(“黑箱”性质)以及如何评估电子商务增长 [34] - 公司处于起步阶段,像素安装量(数千)远少于Facebook(超1000万),目前难以建立稳定的P×Q模型 [35] - 公司正在测试通过广告获取客户,初步显示约30天LTV与CAC持平,商业模式优异 [36] - 目前合格客户的激活率为57%,公司认为在全面开放前可将此比例提升至接近100% [37] - 预计在进入稳定阶段、能够预测广告主数量后,会提供更清晰的模型 [38] 问题: 关于AI和LLM长期(3-5年)对公司业务及移动游戏开发者的影响 [42][43] - LLM将降低游戏开发门槛,加速内容生产,使内容商品化,从而提升公司作为发现平台的价值 [44] - 不认为消费者会完全转向聊天机器人,休闲游戏的核心受众需求稳定 [45] - LLM可能通过提高生产力增加人们的休闲时间,并通过提升游戏制作能力产生更多内容,这都对公司商业模式有利 [46] 问题: 关于自助服务推出后客户类型/规模的变化,以及非电商应用使用Pixel的情况 [49] - 自助服务取消最低GMV门槛,吸引了规模较小的企业(年GMV数十万至数百万美元) [49] - 公司乐于服务小企业并帮助其成长,游戏领域也是如此策略 [51] - 平台对交易型业务(如金融科技)开放,潜在客户生成业务将是未来重点 [52] 问题: 关于Meta在游戏内广告环境中的测试及其潜在影响,以及MAX的护城河 [57] - Meta是MAX的发布合作伙伴,目前主要竞标有ID的流量(约占其竞标流量的三分之二) [58] - 更多竞争(如Unity、Liftoff、Moloco)加入MAX拍卖并未损害公司业务,反而可能通过收取费用扩大整体经济效益 [59] - MAX在调解领域优势明显,但真正的护城河在于公司提供了最好的广告解决方案,与发行商的用户获取支出深度绑定,形成了强大的360度解决方案 [63][64] 问题: 关于2026年AXON营销投资的规划,以及全面上市(GA)是否为限制因素 [67] - 目前测试规模不大,未影响EBITDA利润率 [68] - 若LTV/CAC表现优异,将扩大营销,但会控制节奏,优先完善内容创作工具 [69][70] - 全面上市不急于一时,需等待工具完善以最大化客户成功 [70] 问题: 关于Meta可能通过确定性竞价在ATT限制流量中获得优势的技术可能性及市场影响 [74] - 技术上可能,但违反苹果条款,逻辑上不合理 [75] - 当前市场竞争格局已变,公司AXON 2模型具有主导地位,Meta难以复制五年前的份额 [76] - 公司模型是闭环系统,数据积累不断强化其智能,竞争优势稳固 [77] 问题: 关于当前获取AXON客户最有效的营销渠道 [79] - 测试尚早,难以给出方向性结论 [79] - 除直接响应渠道(如搜索广告)外,与测量公司(Triple Whale)的合作、播客赞助等品牌建设活动也有效果 [79] - 未来将通过内容营销、SEO等组合方式推动增长 [80] 问题: 关于公司竞价规模(超110亿次)及在该领域复制相同效能所需的资本约束 [83] - 公司模型专为其生态系统构建,训练数据基于此,且客户预算已锁定于公司平台 [84] - 公司处于技术前沿,工程团队优秀,持续创新以保持领导地位 [85][86] 问题: 关于“潜在客户挖掘”产品的影响及2026年广告主行为趋势 [87] - 该产品在第四季度推出,允许广告主优化新客户获取,效果显著,采用速度快 [88][89] 问题: 关于广告投资回报率(Ad ROAS)与MAX的连接性,以及需求方在不同平台竞价差异的可能性 [92][94] - 公司条款禁止发行商给予其他平台库存优先权 [93] - MAX是公平透明的市场,占主导地位,需求方没有理由在主要市场采取不同的竞价策略 [97] 问题: 关于客户从合格线索到激活的“损耗”因素及解决方案 [98] - 主要障碍是广告主缺乏符合公司平台格式的视频广告 [99] - 生成式AI工具预计将大幅提高激活率 [99] 问题: 关于MAX市场双位数增长框架能否延续至2026年,以及电商与游戏强化学习模型进展对比 [103][105] - MAX市场增长迅速,主要由公司平台实力驱动,只要公司及其他营销平台表现良好,市场很可能持续快速增长 [103][104] - 电商模型与游戏模型原理相同(强化学习),但处于更早期阶段,数据渗透率低,改进空间更大 [105][106] - 随着更多客户加入带来数据,电商模型将自我改进 [107] 问题: 关于公司业务是需求约束还是供给约束,以及新发行商/现有发行商增加库存的潜力 [111] - 市场并非零和游戏,公司增长的同时其他广告网络也在增长 [112] - 距离需要新发行商来增加供给还很远,当前重点是通过获取多样化广告主来提升现有10亿多日活用户的转化率 [112][113] - 对比Meta的用户货币化水平,公司市场仍有巨大增长空间 [113] 问题: 关于目标广告主规模及是否瞄准品牌预算 [115] - 目标是非品牌绩效广告主(优化交易或潜在客户),而非通过代理商进行品牌投放的大型广告主 [115] - 公司更专注于帮助中小型直接面向消费者(D2C)公司成长,如Shopify商户 [117] 问题: 关于2026年第一季度指引的假设及年初至今电商和游戏趋势 [120] - 指引基于高置信度,第四季度退出势头强劲,部分被季节性因素和季度天数减少所抵消 [121] 问题: 关于几周前提到的电商模型“解锁”详情 [122] - 团队持续改进模型,一次更新带来了广告主投资回报率的显著提升,促使他们增加预算 [123] - 电商模型起步较晚,数据较少,但正在不断改进 [124] 问题: 关于模型“解锁”的规模定性,以及自助服务全面推出后的潜在影响 [127] - 模型改进是持续性的,每季度都在发生 [129] - 电商业务目前占比小(约10%),即使大幅改进对整体影响也有限,但复合增益将助力其成为市场最佳 [129][130] - 自助服务全面推出后,影响将随时间累积,初期不会对高速增长的大盘产生重大推动 [128] 问题: 关于拓展供应来源在增长驱动因素中的排名 [135] - 供应(MAX库存)因MAX市场快速增长而增长 [135] - 当前重点是需求侧(提升转化率),供给侧扩张(获取新发行商)机会很大,但非当前优先事项 [136] 问题: 关于AXON电商广告的创意格式和流程是否构成差异化优势 [137] - 公司广告格式(全屏、强制互动30-60秒以上)能提供全球最佳的广告体验,是重要差异化因素 [137] 问题: 关于电商模型数据不足阶段与AXON 2的对比,以及对其未来效能的信心 [140][141] - 电商模型目前性能已具竞争力,与大型社交平台等顶级渠道相当 [141][147] - 与游戏模型相比,电商数据渗透率起点低,但模型智能,随着数据增加会自我改进 [143][144] 问题: 关于电商之外的其他服务领域及其重要性 [151] - 其他领域(统称为网络广告)仍处于早期阶段,模型演进不如电商成熟 [151] 问题: 关于成本控制、高利润率维持的可持续性,以及现金使用和资本结构优先级 [152] - 对维持当前利润率水平充满信心,潜在变数是绩效营销支出的扩大,但会以纪律严明且回报快的方式进行 [153] - 现金使用优先级:1)投资有机增长(人才、研发等);2)积极的股票回购 [154]
Uber launches an ‘AV Labs' division to gather driving data for robotaxi partners
TechCrunch· 2026-01-27 21:00
文章核心观点 - Uber成立名为Uber AV Labs的新部门 旨在为超过20家自动驾驶合作伙伴提供真实世界驾驶数据 以加速行业技术发展 目前暂不收费 [1][9] 自动驾驶行业趋势与数据需求 - 自动驾驶汽车正经历从基于规则操作向更多依赖强化学习的转变 这使得真实驾驶数据对训练系统变得极具价值 [3] - 最需要这些数据的正是那些已经自行收集了大量数据的自动驾驶公司 这表明解决极端边缘案例已成为一场数据量的竞争 [4] - 目前 自动驾驶公司的车队规模构成了其数据收集能力的物理上限 尽管许多公司使用模拟环境 但实际道路驾驶对于发现各种意外场景无可替代 [5] Uber AV Labs的运营模式与现状 - Uber不会重返自主研发机器人出租车的业务 该业务在2018年发生致命事故后已停止 并于2020年出售 新部门将使用配备传感器的自有车辆为Waymo Waabi Lucid Motors等合作伙伴收集数据 但尚未签署正式合同 [2] - 该部门目前规模较小 仅有一辆现代Ioniq 5测试车 团队仍在手动安装激光雷达、雷达和摄像头等传感器 预计部署100辆车上路收集数据仍需时间 [10][11] - 合作伙伴将不会获得原始数据 Uber AV Labs会对数据进行处理和加工 以适配合作伙伴的需求 这一“语义理解”层将被用于改进机器人出租车的实时路径规划 [11] 数据收集与处理的具体方法 - Uber计划采用“影子模式”作为中间步骤 将合作伙伴的驾驶软件接入AV Labs的车辆运行 当人类驾驶员的操作与影子模式下的自动驾驶软件决策不同时 会向合作伙伴标记这些情况 这有助于发现软件缺陷并训练模型更像人类驾驶 [12] - 该方法与特斯拉过去十年的做法类似 但Uber缺乏特斯拉每日数百万客户车辆全球行驶的规模 Uber计划基于合作伙伴需求进行更有针对性的数据收集 其业务覆盖600个城市可提供灵活性 [13][14] 对行业的影响与Uber的愿景 - 以Waymo为例 其自动驾驶车辆已运营或测试十年 但近期仍出现违规超越停靠校车的情况 访问更大量的驾驶数据有助于在问题出现时或出现前予以解决 [6] - Uber高管表示 从与合作伙伴的对话中得知 Uber能够收集的数据量远超他们自身可能收集的数据总和 [15] - 公司预计在一年内将新部门扩展至数百人 并希望快速推进 长远来看 整个网约车车队都可能被用于收集更多训练数据 [14] - 公司认为 推动合作伙伴的自动驾驶技术进步所带来的价值 远大于从此业务中直接获得的金钱收益 其目标是“民主化”这些数据 [9]
硅谷“钱太多”毁了AI ?!前OpenAI o1负责人炮轰:别吹谷歌,Q-Star 被炒成肥皂剧,7年高压被“逼疯”!
新浪财经· 2026-01-25 09:24
Jerry Tworek离职OpenAI的核心原因 - 核心人物Jerry Tworek于2026年1月离开OpenAI,其离职在内部引起巨大震动,被描述为“突然”且“重”[2][86] - 离职主要原因是希望从事有风险的基础研究,而OpenAI等大型AI公司已优先考虑用户增长等商业化指标,导致研究与产品开发脱节[2][86] - 在OpenAI的近七年里,公司从约30名员工成长为规模庞大的全球性公司,Jerry Tworek参与了包括Q-Star、Strawberry(后发展为o1推理模型)、GPT-4、ChatGPT以及早期代码模型和Chinchilla缩放规律在内的众多关键项目[13][14][86] 对OpenAI及行业现状的批评 - 指出OpenAI创新不足,原因包括:最佳模型的竞争异常激烈,公司需不断展现实力以留住用户并证明高昂的GPU成本合理性;僵化的组织结构(组织架构图)导致团队各自为政,跨团队研究难以开展[3][17][89] - 批评整个人工智能行业高度同质化,所有主要AI公司都在开发几乎相同的技术,产品几乎没有区别,迫使研究人员追求短期利益而非实验性突破[3][23][89] - 认为谷歌之所以能成功追赶OpenAI,本质上是OpenAI自身的失误,包括犯了一些错误、行动过于缓慢,未能充分利用原本拥有的巨大领先优势[3][55][89] 对行业研究环境与文化的观察 - 指出大模型行业的叙事已变得娱乐化,像“肥皂剧”或“真人秀”,技术进展被包裹在关于离职、跳槽和内部纷争的连续剧式叙事中,研究者像是在聚光灯下跑一场没有终点的马拉松[6][44][48][92] - 行业的高薪在某种程度上使研究者害怕失去工作,更倾向于追求短期、确定性的收益路径,而非鼓励冒险和大胆下注[28] - 认为研究结构、文化和协作方式比依赖某个特定“明星”研究者更重要,频繁跳槽的研究者往往反而不够高产[80][81] 看好的研究方向与未来展望 - 认为Transformer架构并非终点,行业存在“路径依赖”,呼吁进行“架构创新”,探索训练大模型的新方法[36] - 指出“持续学习”(Continual Learning)是将测试时与训练时真正融合的关键能力,是目前模型迈向AGI前最后几个关键要素之一[37] - 强调“推理模型”(如o1)是继GPT-4之后最重要的能力跃升,其核心是在对世界有深刻理解的基础模型上叠加规模化强化学习,未来应沿此方向前进[20][21][33] - 看好利用电子游戏等复杂环境训练AI智能体的方向,认为这是贴合人类智能、教授问题求解的有趣途径[31] 对竞争对手的评价 - 高度评价竞争对手Anthropic,认为其在过去一年展现出罕见的“清晰感”,尽管算力更少、团队更小,但异常专注、执行力极强,特别是在代码模型与代码Agent方向上取得了不是单纯堆规模的显著成果[4][5][61][62][90][91] - 认为Meta的战略可能不是追求模型层面的完全差异化,而是利用已成熟的AI技术(如Transformer)来构建全新的产品体验,这对其业务而言是合理策略[60][61] - 提及像John Carmack、Ilya Sutskever等人正在押注完全不同的、激进的新研究路线,这种探索值得被资助[28][29][30] AGI发展路径与时间线看法 - 个人对AGI时间线有所更新,此前认为规模化强化学习即是AGI,但现在认为还需整合持续学习、多模态感知等关键能力[38][39] - 认为要实现AGI还有很多必要步骤,但进展可能很快,时间线可能在2026至2029年之间,不会更久太多[39] - 强调当研究者看到像Q-Star早期迹象这样的全新技术出现时,感到担忧和谨慎是健康且负责任的反应[41]
硅谷“钱太多”毁了AI ?!前OpenAI o1负责人炮轰:别吹谷歌,Q-Star 被炒成肥皂剧,7年高压被“逼疯”!
AI前线· 2026-01-24 13:33
文章核心观点 - 文章通过OpenAI前核心研究员Jerry Tworek的离职访谈,揭示了当前大模型行业在激烈竞争下出现的创新瓶颈、研究商业化压力以及行业叙事娱乐化等问题,并探讨了未来AI研究的潜在突破方向 [3][4][6] OpenAI内部变化与Jerry Tworek的离职 - Jerry Tworek于2019年加入OpenAI,当时公司仅有约30名员工,他是现代AI浪潮背后最有影响力却最少露面的关键人物之一,参与了包括Q-Star、Strawberry(最终发展为o1推理模型)在内的许多最重要项目 [3] - 其离职在内部引起巨大震动,多位员工在社交媒体上表示“崩溃”和“难受” [3] - 离职主要原因是想从事有风险的基础研究,而这在OpenAI已不可能,因为公司优先考虑用户增长等商业指标,研究与产品开发之间存在日益加剧的分歧 [3] - 他认为在OpenAI的七年,每一年都像在一家完全不同的公司,经历了从30人小团队到全球数千人员工规模的巨大变化 [17][18][19] 大模型行业面临的挑战与问题 - **创新不足与同质化竞争**:所有主要AI公司都在开发几乎相同的技术,产品几乎没有区别,迫使研究人员追求短期利益而非实验性突破 [4] - **组织架构僵化**:团队各自为政,职责分明,跨团队研究难以开展,组织结构决定了哪些研究是可能的,最终导致公司“交付其组织架构图”,只做组织结构最容易支持的项目 [4][22][23] - **风险偏好降低**:公司需要不断展示最强模型以留住用户并证明高昂的GPU成本(未给出具体数字)的合理性,这影响了承担风险的“胃口” [4][22] - **行业叙事娱乐化**:整个行业被持续围观,技术进展被赋予额外意义,内部变化被解读成信号,研究现场被包裹进一层娱乐业式的叙事,像在聚光灯下跑一场没有终点的马拉松 [6][7][58] 对主要AI公司的评价与比较 - **OpenAI的失误**:谷歌之所以能在AI竞赛中成功追赶,本质上是OpenAI自身的失误,公司犯了一些错误,行动过于缓慢,没能充分利用原本拥有的巨大领先优势,导致一些关键推进“慢得不该那么慢” [4][5][67][68][72] - **Anthropic的清晰感**:在过去一年里展现出罕见的“清晰感”,算力更少、团队更小,却异常专注、执行力极强,特别是在代码模型与代码Agent方向上取得了不是靠简单堆规模取得的成果 [5][75][76] - **谷歌的追赶**:谷歌做出了许多正确决策,并凭借其在硬件、算力和人才储备上的巨大优势成功追赶,但OpenAI的领先最初靠的是对特定技术路线的强烈信念而非资源优势 [4][68][69] - **Meta的战略**:可能选择使用已熟悉的AI技术(如Transformer)来构建全新的产品体验,而非在模型层面追求完全不同的路线,这对其作为社交巨头而言是合理的策略 [74][75] 未来AI研究的潜在方向 - **超越Transformer的架构创新**:Transformer不可能是机器学习的最终架构,存在其他训练大模型的方法值得探索 [45][46] - **持续学习(Continual Learning)**:如何把测试时与训练时真正打通、融合,让模型能像人类一样从看到的数据中持续学习,这是实现AGI的关键能力要素之一 [47] - **世界模型与强化学习的结合**:在高质量世界模型之上大规模运行强化学习,是“毫无疑问正确”的方向,能教会模型仅靠预训练永远学不会的技能 [26][43][44] - **探索与利用的权衡**:行业需要像设计智能体一样,思考如何在研究中进行“探索与利用”的取舍,鼓励更多冒险和大胆的赌注,因为真正的进步正是这样发生的 [36][40] 对AGI(通用人工智能)的展望 - 对AGI时间线的判断有所更新,一年半前认为规模化强化学习即是AGI,但现在认为还需整合持续学习、多模态感知等能力 [49][50] - 不认为谈论AGI是离谱的,但按其定义当前模型仍不是AGI,实现“文明级里程碑”还有很多必要步骤 [49][50] - 预计AGI可能的时间点在2026至2029年之间,不会更久太多,因为投资在年复一年累积增长,人才池和探索的想法数量都在变多 [50] 对AI行业生态与文化的观察 - **高压环境**:在OpenAI工作甚至被描述为比创业压力更大,研究者需要像“做俯卧撑”一样锻炼心理韧性以应对持续高压 [7][61][92] - **人才流动与“明星驱动”**:湾区像一个巨大的转会市场,研究者在几家前沿实验室之间流动,但公司的结构、文化和协作方式比某个特定研究者的去留更重要 [6][96][97][98] - **资源分配问题**:许多有潜力的研究方向缺乏关注、算力和资源,且行业更擅长“从0到1”提出想法,而将不成熟的想法做到大规模可靠落地(从1到100)同样关键但资源往往分散 [84][85][92][93]
为什么自动驾驶领域内的强化学习,没有很好的落地?
自动驾驶之心· 2026-01-13 11:10
自动驾驶端到端技术发展现状与挑战 - 强化学习在自动驾驶决策中至关重要,但面临奖励机制设计的核心难题,即平衡安全与效率时易出现“奖励破解”问题,导致性能难以全面提升[2] - 自动驾驶的强化学习问题比具身智能更复杂,需在达成行驶目标的同时严格遵守驾驶规则,并解决长时序决策、多目标权衡、不确定交互建模及规则难以穷举的“灰色决策区”等挑战[2] - 强化学习进一步落地的关键在于设计能与强化学习良好配合的系统架构[3] - 主流依赖模仿学习的端到端方案存在轨迹不稳定等问题,核心原因是模型缺乏基于环境反馈的持续修正能力[4] - 行业头部公司已形成完整的模型迭代思路:模仿学习训练 → 闭环强化学习 → 规则兜底(时空联合规划),并引入导航信息,该体系涉及模型、算法、数据到规则,人才壁垒极高[5] 自动驾驶端到端领域人才市场状况 - 该领域因技术壁垒高、人才稀缺,薪资水平非常慷慨,拥有五年以上经验的头部人才薪资普遍在100万元人民币起步,且上不封顶[6] - 量产落地过程中需克服众多复杂场景的挑战,如拥堵加塞、静态偏航、碰撞场景等,并需精准判断何时进行数据挖掘或数据清洗[7] - 端到端自动驾驶是一个系统工程,而非单点技巧,行业面临现实问题:大量从业者仅有论文基础,缺乏量产落地的系统经验,即使已从事端到端开发的工程师,其解决实际落地场景的能力也普遍较弱[7] 端到端自动驾驶课程核心内容架构 - **课程概述与基础**:介绍感知任务合并与规控算法学习化等主流趋势,讲解一体化感知架构、经典规控学习化方案,并详细说明当前端到端的开源数据集与评测方式[13] - **两段式端到端算法**:讲解两段式框架的建模方式、感知与规划控制的信息传递机制,分析其优缺点,阐明下游消费的感知信息及消费方式,并通过PLUTO算法进行实战[14] - **一段式端到端算法**:介绍性能更优的一段式框架,因其可实现信息无损传递,课程涵盖基于VLA、基于Diffusion等多种方案,并通过VAD系列进行深入学习[15] - **导航信息集成**:讲解导航地图在引导、选路、选道中的关键作用,介绍主流导航地图格式与内容,以及其在端到端模型中的编码、嵌入方式,以更有效发挥其能力[16] - **强化学习算法应用**:指出纯模仿学习的不足,需结合强化学习以学习因果关系并实现泛化,本章重点介绍强化学习算法及其训练策略[17] - **轨迹输出优化实战**:进行NN Planner项目实战,包括基于模仿学习的算法(重点介绍扩散模型与自回归算法),并在监督微调后继续讲解基于强化学习的算法实战[18] - **量产兜底方案**:介绍量产中为保证轨迹稳定可靠的后处理兜底逻辑,包括轨迹平滑优化算法、多模态轨迹打分搜索算法等[19] - **量产经验分享**:从数据、模型、场景、规则等多视角分享量产经验,剖析如何选用合适工具与策略以快速提升系统能力边界[20] 目标学员与课程要求 - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端等常见算法知识,掌握强化学习与扩散模型理论基础,并拥有Python、PyTorch及MMDetection3D框架的使用经验,同时需要自备算力在GeForce RTX 4090及以上的GPU[21][22]
我们在招募这些方向的合伙人(世界模型/4D标注/RL)
自动驾驶之心· 2026-01-12 17:20
行业阶段与平台定位 - 自动驾驶行业已进入下半场 行业面临难点与痛点需要更多参与者共同突破 [2] - 公司作为国内自动驾驶领域的技术创作平台 旨在行业激流中贡献力量 成为能为行业带来价值的平台 [2] 业务发展方向与人才需求 - 公司业务发展需要更多优秀伙伴加入 [3] - 主要业务方向涵盖自动驾驶产品经理 4D标注与数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个前沿技术方向 [4] - 岗位职责主要面向B端与C端的自动驾驶培训合作 课程开发以及原创文章创作 [5] - B端客户面向企业 高校及研究院所 [5] - C端客户面向学生及求职人群 [5] 合作方式 - 有关待遇与合作方式的进一步沟通 可通过指定微信联系 [6]
毫无征兆,DeepSeek R1爆更86页论文,这才是真正的Open
36氪· 2026-01-09 11:12
论文核心更新与行业意义 - DeepSeek将R1模型的论文从22页大幅更新至86页,将其升级为一份开源社区可完全复现的详细技术报告,证明了仅通过强化学习即可显著提升AI推理能力 [1][2] - 此次更新被行业观察者视为一个重要里程碑,表明开源模型不仅能在性能上追平主流闭源模型,甚至在某些方面能为行业提供技术指引 [1][16] 模型性能与基准测试结果 - 在多项基准测试中,DeepSeek R1的表现与OpenAI o1模型相媲美,甚至超越了o1-mini、GPT-4o及Claude 3.5 Sonnet等模型 [5] - 在数学推理任务上表现突出:在AIME 2024测试中达到79.8%的通过率,与OpenAI o1-1217的79.2%基本持平;在MATH-500测试中以97.3%的通过率领先于o1-1217的96.4% [7][10] - 在编程任务上实力强劲:在Codeforces竞赛中评级达到2029,百分位为96.3%,解题能力超过93.6%的人类参赛者 [7][13] - 在人类偏好评估(Chatbot Arena)中,DeepSeek-R1在启用风格控制后,与OpenAI o1及Gemini-Exp-1206并列第一 [15][16] 技术方法与训练细节 - 公司采用了纯强化学习方法提升模型推理能力,并详细公布了训练数据配方:RL阶段使用了数学(26,000题)、代码(17,000条)、STEM(22,000)、逻辑(15,000)和通用(66,000)数据;SFT阶段使用了约800,000条数据 [4][19] - 训练成本透明化:DeepSeek-R1-Zero阶段消耗101,000 H800 GPU小时,SFT数据创建消耗5,000小时,DeepSeek-R1训练消耗41,000小时,总计约147,000 GPU小时,以美元计总成本约为29.4万美元 [4][23][24] - 成功实现了推理能力的知识蒸馏:将R1的推理能力迁移至参数量为1.5B、7B、8B、14B、32B、70B等多种规模的“学生”模型上,显著提升了同尺寸模型的性能 [20][21][22] 模型能力深度分析 - DeepSeek-R1-Zero在训练中展现出“智能涌现”现象:对于MATH数据集中高难度问题(4-5级),其准确率从训练初期的约0.55-0.78显著提升至0.90-0.95 [26] - 模型在训练过程中学会了反思行为:在生成长链文本时,使用“wait”、“mistake”、“however”等反思性词汇的频率相比训练初期增加了5到7倍 [28][29] 模型架构与对比 - DeepSeek-R1采用混合专家模型架构,激活参数为370亿,总参数量为6710亿,与DeepSeek-V3一致 [7][12] - 在多项综合评测中表现优异:在AlpacaEval 2.0中LC-winrate达到87.6%,在ArenaHard(GPT-4-1106)中达到92.3%,在长上下文问答任务FRAMES上准确率达到82.5% [7][10] 安全性评估 - 公司构建了全面的安全评估体系,包括官方风险控制、六项公开安全基准测试、内部安全测试集(1,120道题)、多语言安全评估(覆盖50种语言,共9,330题)以及越狱攻击稳健性评估 [31][32][38][42] - 在整体安全性上,DeepSeek-R1与其他前沿模型表现相当,但在涉及“知识产权”的HarmBench测试中表现欠佳 [35] - 启用风险控制系统后,模型在多语言环境下的整体安全得分达到85.9%,接近Claude-3.7-Sonnet的88.3% [35][42] - 越狱攻击测试显示,开源基础模型的越狱风险相对更高,但DeepSeek的风险控制系统能有效降低不安全回答的比例 [44][45] 关键成功因素与经验总结 - 强大的基础模型是RL训练取得显著收益的前提,公司实验表明从小规模模型起步未能获得实质性提升 [46] - 可靠且准确的验证器(奖励模型)对于防止奖励作弊至关重要,基于规则的奖励模型或使用大语言模型进行答案一致性判断是两种有效方式 [47] - 迭代式训练流水线需要监督微调与强化学习相结合,二者缺一不可,单独依赖任一方均存在局限 [48][50]