Workflow
Reinforcement Learning
icon
搜索文档
深度|百亿美金AI独角兽Surge AI华裔创始人:不融资、小规模,AI创业的另一种可能
Z Potentials· 2025-12-19 11:01
图片来源: Lenny's Podcast Z Highlights : Edwin Chen 是美籍华裔, MIT 数学、计算机科学与语言学背景,曾任职谷歌、 Facebook 等企业及知名对冲基金, 2020 年创立 AI 数据标注公司 Surge AI 并任 CEO ,公司零外部融资却营收超 10 亿美元,服务谷歌等巨头,他是美国最年轻的亿万富豪之一。本次对话由 Lenny Rachitsky 在 2025 年 12 月 7 日发 起,深入对话这位零融资的 AI 创业人。 Surge AI 零融资 4 年营收 10 亿小团队的反主流创业路径 Lenny Rachitsky : 今天的嘉宾是 Surge AI 的创始人兼 CEO Edwin Chen 。 Edwin 是一位杰出的 CEO , Surge 也是一家非凡的公司。他们是领先的 AI 数据公司,为每一家前沿 AI 实验室的模型训练提供支持。 同时,他们也是成立后增长最快的公司 —— 仅用四年时间,在不到 100 名员工、完全自筹资金 的情况下,营收就突破了 10 亿美元,从未从风投那里筹集过一分钱。而且公司从成立第一天起就实现了盈利。正如你将在对 ...
Rivian Unveils Plans For Autonomous Driving
Youtube· 2025-12-12 01:32
公司自动驾驶技术战略与架构演进 - 公司自2021年底推出首款车辆后 立即开始为自动驾驶平台设计全新的底层架构 该架构构成了车辆和企业运营的基础[2] - 第二代车型架构实现了计算能力10倍的提升 并大幅改进了摄像头平台 这些车辆构成了用于训练基础模型的“数据飞轮”[2][3] - 第三代架构将包含三大核心自研硬件:自研定制芯片、自研摄像头平台以及集成激光雷达 同时配合软件工作 共同构成系统核心[4] 自动驾驶功能路线图与性能指标 - 公司计划本月通过OTA升级 将北美地区的“免手”驾驶功能从目前不足15万英里覆盖范围 扩展至超过350万英里[8] - 2026年将推出点对点导航功能 车辆可在监督下完全自主行驶至目的地 驾驶员需保持注意力监控[9] - 第三代平台计算能力达1600 TOPS 可每秒处理50亿像素 集成的激光雷达为迈向个人L4级自动驾驶提供了可能[10][11] - “脱眼”驾驶将分阶段推出:2027年先实现高速公路脱眼 随后扩展到所有道路 最终目标是实现个人L4级自动驾驶 即车辆可在无人的情况下自主运行[12] 垂直整合与成本控制策略 - 激光雷达成本已大幅下降 从数万美元降至传感器级别仅数百美元 目前仅占车辆物料成本的很小部分[21] - 自研处理器通过与台积电直接合作 移除了中间成本叠加 在显著提升性能的同时 实现了每辆车数百美元的成本节约[22][24][25] - 公司的研发基础设施和固定成本结构并非为年产5万辆设计 垂直整合软件、电子设备和自研芯片等重大资本消耗型研发 只有在年产数十万乃至数百万辆的规模下才具有经济意义[32][34] 商业模式与商业化潜力 - 公司认为实现L4级自动驾驶的技术近乎相同 区别在于选择的商业模式和时机 公司初期将聚焦于个人L4级自动驾驶 但并不排除未来参与共享出行的可能[15] - 公司对自研自动驾驶技术未来授权给其他厂商持开放态度 并拥有较强的信心 认为其平台级架构和数据飞轮优势明显 未来几年可能成为可授权的平台[38][39] - 公司自动驾驶软件“Autonomy Plus”提供两种付费模式:每月49.99美元订阅费或一次性预付2500美元 购买后可终身随车使用 该定价显著低于竞争对手[40][42] - 自动驾驶AI技术是公司研发投入的绝对核心 其投入远超其他任何研发类别[43]
不融资、不烧钱、不扩团队,华裔 CEO 创办的AI独角兽打入谷歌、Anthropic核心供应链!如今营收近百亿
搜狐财经· 2025-12-10 15:15
公司概况与业绩 - 公司Surge AI是一家专注于提供高质量AI训练数据的公司,其业务本质是“教AI模型什么是好、什么是坏”,通过真人数据训练模型并进行评估 [18] - 公司成立于2020年,在不到4年时间里,实现了超过10亿美元的年营收,且从未接受任何外部融资 [5][14] - 公司在实现10亿美元营收时,员工人数不到100人,团队规模极小且精英化,成立第一年即实现盈利 [10][14] 商业模式与竞争优势 - 公司构建了名为“Surge Force”的精英标注员网络,准入门槛极高,成员包括全球专业人士及顶尖大学教授,旨在将人类专业知识编码进数据 [8] - 公司开发了先进的人机协同系统和算法来保障数据质量,系统追踪每位标注者数千个行为信号,并用机器学习检测低质量标注行为 [8] - 凭借极高的数据质量,公司赢得了包括OpenAI、Anthropic、谷歌、微软、Meta在内的几乎所有AI巨头客户,拥有极高的议价能力 [9] - 仅Meta的生成式AI部门在2024年就在公司的服务上支出超过1.5亿美元 [9] 创始人与公司理念 - 创始人兼CEO Edwin Chen拥有MIT数学与语言学背景,曾在谷歌、Meta、Twitter等公司负责机器学习项目,其经历使其深刻认识到高质量数据对AI的关键性 [6] - 公司创立源于创始人在大厂工作中目睹数据标注质量低下的问题,决心打造专注于高质量、高复杂度数据标注与基础设施的公司 [6][7] - 公司刻意避免硅谷传统的融资与公关游戏,不依赖外部投资和媒体宣传,而是通过打造比别人好10倍的产品和口碑来获取早期核心客户 [16][17] - 创始人将公司更多地视为一个研究实验室而非典型初创公司,注重好奇心、长期激励和学术严谨性,而非季度指标 [38][50] 对AI训练与行业的洞察 - 高质量数据的定义远超简单的规则检查,而是涉及主观、复杂且难以衡量的维度,需要收集数千个信号来综合评估 [19][20] - 当前AI行业的基准测试被认为不可信,因其本身可能存在错误且容易被模型针对性优化(刷分),与解决真实世界问题的能力相关性弱 [22][23] - 模型的后训练被视为一门“艺术”而非纯科学,不同团队的“品味”和价值观会影响其选择的数据类型,最终导致模型行为出现差异化 [22][40] - 强化学习环境(对现实世界的模拟)对于训练模型处理复杂、多步骤的端到端任务变得越来越重要,能暴露模型在混乱真实场景中的薄弱环节 [26][27] - 未来AI模型将因不同实验室的价值观和目标函数不同而变得越来越差异化,而不仅仅是能力上的同质化竞争 [40][41] 公司战略与未来方向 - 公司相信未来会出现更极端的“微型巨头”企业,即用极少的精英员工创造巨大营收,AI带来的效率将彻底改变公司的构建方式 [14][15] - 公司内部设有研究团队,分为“前沿部署研究员”和“内部研究员”,前者与客户紧密协作改进模型,后者专注于构建更好的基准测试和训练技术 [36][37] - 公司认为被低估的趋势是聊天机器人将内置更多可执行的小应用和UI(“成果物”),而被过度炒作的是“Vibe Coding”(凭模糊需求生成代码),因其可能损害代码库的长期可维护性 [43] - 公司的长期目标是确保在塑造AI未来的过程中扮演关键角色,并以对人类长期有益的方式影响AI的发展方向 [49][50]
NeurIPS 2025大洗牌:清华390篇险胜Google,一张图看懂全球AI权力迁徙
新浪财经· 2025-12-09 21:43
全球AI研究格局 - NeurIPS 2025接收论文总数达5825篇,刷新历史记录,但核心变化在于中美双极格局固化、LLM架构红利边际递减以及强化学习与具身智能成为主导[1][29] - 全球顶级AI研究高度集中于三个核心地理区域:美国湾区(以Google、Meta、Stanford、Berkeley为代表)、中国北京(以清华大学、北京大学、中国科学院大学为代表)和中国上海(以上海交通大学、上海AI Lab、复旦大学为代表)[6][7][35] - 学术界与工业界的界限已被打破,算力与人才的深度绑定成为取得顶尖研究成果(SOTA)的关键,双重身份(同时任职于高校和工业界实验室)的研究者成为主流[11][28][41] 机构研究成果排名 - 在全量论文统计中,清华大学以390篇(占比2.18%)超越Google的388篇(占比2.17%),在总量上位列全球第一[4][32] - 在Top 50头部机构的加权份额排名中,Google以4.84%的份额略高于清华大学的4.73%,显示美国科技巨头在精英研究中的持续领先地位[5][34] - 在高质量论文(仅包含Oral和Spotlight,约占总数的14%)筛选中,Google份额反弹至2.82%(72篇),重夺第一;清华大学以2.54%(65篇)紧随其后,两者在顶尖成果上的差距仅为7篇[8][10][39] 中美研究生态差异 - 美国的研究优势集中于Google、Meta等科技巨头,而中国的核心引擎是清华大学、北京大学、上海交通大学等高校集团军[6][35] - 在自然语言处理领域,中国的研究份额达到33.8%,已超过美国的31.4%,成为全球最大的NLP研究产出国[17][19][49] - 在强化学习与机器人学领域,美国以32.1%的份额居首,但中国以81.1%的惊人增速获得了29.9%的份额,显示出在该赛道的激烈竞争与快速追赶[15][17][47] 前沿技术赛道趋势 - 强化学习与机器人学成为增长最快、最热门的AI赛道,论文总量达到2302篇,年增长率高达39.4%[12][14][44] - AI for Science是年增长37.4%的蓝海领域,呈现美国(31.7%)、中国(29.5%)和欧洲(23.1%)三足鼎立的均衡竞争态势[20][22][52] - 欧洲采取差异化战略,在可解释性AI领域占据23.5%的全球份额,仅次于美国(32.0%),专注于构建AI的安全、公平与透明度护栏[23][25][55] 产学研模式变革 - 顶尖研究者普遍身兼学术职务与工业界实验室职位,以同时获取前沿理论和大规模算力支持,纯粹的学术研究面临挑战[11][40] - 对于学生而言,进入大型科技公司研究院实习已成为追求顶尖研究成果的必备条件,而非加分项[11][41] - 技术发展正从纯对话的LLM时代向拥有物理身体的“具身智能”或“Physical AI”时代演进[12][28][42]
Macaron AI's Mind Lab Sets New Benchmark with Trillion Parameter RL at 10% Cost, Now Integrated Into NVIDIA Megatron
Globenewswire· 2025-12-08 18:00
行业趋势:从规模扩张到经验智能 - 行业认识到当前最大模型的关键局限性:尽管每次更新都能达到惊人的基准测试成绩,但它们经常在现实世界的细微差别和“长尾”情况上犯错 [5] - 仅向问题投入更多数据和参数正在产生收益递减 前沿模型可以通过律师资格考试或生成代码,但仍然会犯基本错误 [6] - 新兴共识是,真正“智能”的行为可能需要更多东西:从经验中持续学习的能力 [6] - 人工智能行业可能正在走出盲目规模扩张的时代,进入“经验智能”时代 [36] 公司战略与愿景 - Macaron AI的核心理念是经验驱动智能,超越对规模定律的盲目遵循,并闭合现实世界使用与模型学习之间的循环 [7] - 公司主张,从真实用户反馈中进行训练,比仅仅增加更多预训练数据能带来更大的性能提升,这一转变被称为“经验智能”的崛起 [7] - 公司的愿景是让人工智能更像人类一样进化:通过与用户的真实互动不断更新自己 [8] - Macaron AI旨在成为经验驱动时代真正的个人人工智能代理,而Mind Lab是实现这一目标的引擎 [9] - 公司希望被视为在其消费产品之下拥有“前沿研究堆栈” [10] - 通过公开分享这些进展,并与NVIDIA和字节跳动等平台集成,Macaron AI正以可信的方式融入更广泛的人工智能社区 [35] - 公司不仅是在包装他人的大语言模型,而是在发明让AI学习和适应的新方法 [35] Mind Lab研究部门 - Mind Lab是Macaron AI背后的核心研究部门,由一支10人的全明星研究团队组成,在人工智能领域根基深厚 [10] - 团队成员来自OpenAI和DeepMind等组织,以及清华大学、麻省理工学院和康奈尔大学等顶尖大学的校友 [10] - 该团队在强化学习、大规模优化和人工智能系统等领域合著了超过200篇论文(被引用超过30,000次) [10] - Mind Lab的使命不是赢得参数数量竞赛,而是开辟一条通往人工智能智能的不同道路 [13] - 该实验室专注于允许AI智能体从交互式经验中学习的算法,无论是来自用户的反馈、环境探索还是解决下游任务 [13] - Mind Lab作为实验智囊团,将经验智能的概念转化为具体技术 [14] - 通过其正式亮相和今天公布的成果,Macaron AI向行业表明,它不仅仅是另一个包装其他LLM API的应用程序,而是一个拥有全栈创新能力的AI创新者 [14] 技术突破:万亿参数强化学习效率提升 - Mind Lab团队成为使用低秩适应技术在开源万亿参数AI模型上运行高性能强化学习的先驱,且仅使用通常GPU预算的约10% [4] - 这意味着以前可能需要数百或数千个GPU的工作,现在只需十分之一即可完成 [4] - 在万亿参数模型上实现高性能强化学习是一项 monumental 的壮举,通常需要“千GPU级”计算 [15] - 与常规方法相比,其基于LoRA的强化学习流程仅使用预期GPU计算的约10% [15] - 团队通过同步 rollout 和训练架构,将每次强化学习训练迭代的时间缩短了超过6倍 [15] - 他们以约10%的常规训练成本实现了所需的模型对齐和性能 [15] - 通过将混合并行策略与LoRA微调相结合,Mind Lab的系统可以训练和适应真正庞大的模型而无需“破产” [16] - 今年早些时候,Macaron AI曾创下仅用48个H100 GPU训练6710亿参数模型的基准 [16] - 现在,随着1万亿参数强化学习训练的演示,他们实现了更大的飞跃 [16] - LoRA方法仅影响小于0.5%的参数,通过插入微小的低秩更新矩阵来适应模型 [16] - 这种低秩调整可以保留超过90%的全参数微调性能,同时仅使用一小部分计算资源 [16] - 在Kimi K2模型上的基于LoRA的强化学习,仅需全参数训练10%的GPU占用,即可实现相同的对齐质量 [19] - 训练运行表现出平滑、可靠的学习曲线,奖励和任务成功率稳步提高,没有不稳定或灾难性崩溃 [19] - 下游评估证实,模型在获得更精确的任务对齐的同时,保留了其广泛的通用能力 [19] 开源贡献与行业影响 - Mind Lab开源了核心强化学习算法,并将其优化贡献给了主要的人工智能框架 [21] - 他们的技术已被合并到NVIDIA的NeMo Megatron-Bridge和字节跳动的VolcEngine RL库中 [21] - 这意味着任何使用这些框架的组织现在都可以利用Macaron AI的方法进行大规模的基于LoRA的强化学习 [21] 技术创新:记忆扩散与智能遗忘 - Macaron AI的“记忆扩散”重新构建了AI存储和更新信息的方式,不是将记忆视为外部数据库或过去对话的简单回放,而是持续在智能体轨迹上重新压缩其记忆 [22] - 这种方法的核心是一个三步循环:掩码-分配-重填 [23] - **掩码**:系统识别并掩码掉内部记忆中被视为低价值或过时的部分 [24] - **分配**:Macaron AI根据估计的重要性,智能地将其固定的记忆预算分配给不同的信息片段 [24] - **重填**:模型通过重新生成重要信息的压缩版本来填充被掩码的槽位 [24] - 这种机制使Macaron AI拥有了一种类似于人类记忆的智能遗忘能力,关键经验和高价值信息被高保真地保留,而琐碎或冗余的细节逐渐淡化为抽象摘要或被完全丢弃 [26] - 通过持续分类和压缩其记忆流,Macaron AI维持了连贯的长程推理,而无需臃肿的上下文窗口,回忆过去的成本基本保持恒定,与对话长度无关 [26] 产品升级与应用成果 - **应用生成速度提升10倍**:根据用户请求创建定制化应用的过程显著加快,过去需要约20分钟,现在通常在2分钟或更短时间内完成,速度降低了90% [29] - **社交协作**:引入多用户群组聊天功能,用户可邀请朋友、家人或同事加入由AI驱动的对话,Macaron AI充当整个团队的协调者和创意伙伴 [29] - **“每日火花”个性化推送**:推出根据用户过去互动、兴趣甚至情绪生成的AI策划每日摘要,内容范围从诗歌、哲学思考到健康提示和利基新闻简报 [32] - **跨聊天和应用的统一记忆**:统一了自由形式聊天和迷你应用背后的记忆,信息在两者之间无缝共享,形成了一个关于用户的互联知识库 [34] - 这些升级都源于Mind Lab在大型模型效率和长期学习方面的基础工作 [34]
让AI锐评本届 NeurIPS 2025 最佳论文会得到什么结果? | 锦秋AI实验室
锦秋集· 2025-12-05 11:43
文章核心观点 - 文章通过让多个主流大语言模型(GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)扮演审稿人,对NeurIPS 2025的获奖论文进行盲审,旨在探究AI评审与人类评审结果的一致性、AI评审的稳定性及其对论文叙事方式的敏感性 [1][3][10] - 实验发现,AI评审的结论与人类评审结果存在显著分歧,两篇官方最佳论文在AI评审中并未获得一致的最高评价,其中一篇甚至被部分模型直接拒绝 [18][23][26][27] - AI评审表现出对提示词框架和论文叙事方式的极度敏感,当评审视角从“综合评价”切换为“刻意挑错”时,即使是官方最佳论文也可能被整体否决 [55][72] 测评设置与方法 - 实验选取了GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax五个主流大模型作为“AI审稿人” [7] - 设计了三个互补的评测场景:1) 全文评测:模拟真实会议评审,观察AI与最终录用结果的一致性 [8];2) 摘要评测:仅提供论文摘要,检验模型在信息不完整时的判断依据 [9];3) 对抗性评测:通过提示模型“以最苛刻评审者的角度评分”,测试其对提示框架的敏感性和评分波动 [9] - 评审标准严格遵循NeurIPS官方维度,包括技术正确性、创新性、清晰度、意义、可复现性及总分,并需给出最终录用建议(接受/边缘/拒绝)及奖项等级判定 [12] 全文评测结果分析 - **论文一(Gated Attention for Large Language Models)**:所有AI模型均未拒稿,但除GPT5(总分9,建议最佳论文)外,其他模型(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)普遍将其视为强论文(总分7.8-8.5),建议等级为海报、焦点或口头报告,上演了“小范围低估冠军作品” [16][18] - **论文二(1000 Layer Networks for Self-Supervised RL)**:AI评审与人类评审分歧明显,GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5给出的总分在7.8-8.5之间,建议等级为口头或焦点报告,无一建议最佳论文;而Minimax则给出全场最低的5.8分并建议拒绝,相当于对官方最佳论文的“当面否决” [23][25][26] - **论文三(Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs?)**:AI评审达成高度共识,五个模型总分均在8分以上,其中四个(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)打分达9或9.2,建议至少为口头报告,Minimax甚至建议最佳论文,与人类评审给出的口头报告结果基本同频 [30][31][32][33] - **论文四(Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies)**:AI评审整体评价偏保守,GPT5和Minimax建议焦点报告,Claude 4.5和Gemini 3 Pro建议接受(海报),只有DeepSeek-V2.5明显更看好(总分9,建议口头报告),与大会结果一致 [36][37][38] 摘要评测结果分析 - **论文一**:在仅提供摘要的条件下,所有AI模型的评价普遍“降了半档”,最高分由GPT5给出(8.5分),但建议从最佳论文降为焦点报告,AI更倾向于将其视为高质量工程分析型工作,而非一眼认定的冠军 [39][40][42] - **论文二**:与全文评测相比,摘要评测阶段AI态度明显更“乐观”,模型普遍上调评分和预期,倾向于高估其通用性与实际价值,而弱化正文中可能隐藏的风险 [43][45] - **论文三**:摘要评测几乎将该论文推至“冲奖区”,GPT5直接给出8.8分并建议最佳论文,其他模型也多建议口头报告,表明这类“质疑主流路径+大规模实证”的论文仅凭摘要就极易营造强烈话题感 [46][48][49] - **论文四**:摘要评测出现“集体抬升”,GPT5、Claude 4.5、DeepSeek-V2.5总分逼近9分并建议口头报告,Gemini 3 Pro和Minimax则直接建议最佳论文,AI更容易被“6万+次实验、平均45%最高126%性能提升”的故事线吸引 [50][51][52][53] 对抗性评测结果分析 - **论文一**:在“以最苛刻评审者角度评分”的提示下,该最佳论文从“年度最佳”被重写为“工程小改动”,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则直接拒绝,AI版“Reviewer 2”破坏力展露无遗 [54][55] - **论文二**:对抗性评测进一步放大分歧,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则集体拒绝,集中批评其创新性有限、理论分析不足,现实中的冠军论文可能遭遇“三拒两险过”的命运 [56][57][58][60] - **论文三**:该论文成为争议最大对象之一,GPT5建议海报,DeepSeek-V2.5建议边缘,而Claude 4.5、Gemini 3 Pro、Minimax则统一拒绝,质疑其指标有效性、样本量不足及理论贡献偏弱 [61][62][63][65] - **论文四**:对抗性框架显著压低评价,GPT5建议海报,Claude 4.5和DeepSeek-V2.5建议边缘,Gemini 3 Pro和Minimax则拒绝,批评其缺乏算法创新、适用性被高估及存在过度营销 [66][67][68][71] 实验总结与发现 - 实验暴露AI评审存在两大结构性问题:一是对提示词高度敏感,评审框架的切换可导致同一论文的评价从最佳变为拒绝 [72];二是对叙事语气极度“吃语气”,仅看摘要时,擅长使用“大规模实验”、“范式转变”等话术的论文易被高估 [72] - 在“人机协同”的背景下,AI基于统一标准能提供更稳定、深入的分析,但其结论与真实评审结果存在分歧,可作为理解论文优劣与提升空间的辅助工具,而非最终裁决者 [69][70] - 两篇官方最佳论文在AI评审中待遇不一:门控注意力论文在多数模型眼中是稳妥的强论文(8-9分),但仅GPT5愿称其最佳;千层网络论文则更极端,评价从口头/焦点报告到直接拒绝,在AI世界中仅是“高争议强稿” [72]
OpenAI takes stake in Thrive Holdings in latest enterprise AI push
Yahoo Finance· 2025-12-02 04:39
合作核心内容 - OpenAI与Thrive Holdings达成非货币性合作 将人工智能技术整合到会计和IT服务等传统行业业务流程中[1][2] - 作为交易的一部分 OpenAI将提供专门的研究团队和资源 以换取在Thrive Holdings的所有者权益[2] - 此次合作加深了OpenAI与其最大财务支持者之一Thrive Capital之间交织的金融和业务联系 Thrive Capital已向该AI实验室投资了数十亿美元[3] 合作背景与动因 - OpenAI正试图基于ChatGPT的成功 在近期对AI应用过度承诺的担忧中 接触更多企业客户[3] - Thrive Holdings是Thrive Capital为专注于收购传统企业并进行AI整合而创建的载体 今年成立 已筹集超过10亿美元用于收购全国范围内的会计和IT服务提供商[4] - 在部署AI模型时 公司遇到了“更早出现的研究问题” 发现“现成的”解决方案不足以满足其投资组合公司中复杂且特定领域的任务[5] 合作模式与重点 - 合作将专注于专业服务领域的AI应用 特别是通过强化学习技术 该技术利用领域专家的反馈来持续训练和改进用于高度专业化功能的AI模型[6] - 通过合作产生的知识产权和产品将由Thrive Holdings拥有[7] - OpenAI除了获得股权外 还能通过观察其模型在真实企业环境中被测试和完善而获得洞察 为其更广泛的研究提供信息[7] 合作目标与现状 - 通过所有权与OpenAI结盟 使双方能够共同专注于打造领先产品的核心目标[7] - 尽管是OpenAI的主要投资者 但该合作并不排除Thrive在其业务中合理使用其他AI模型 包括开源模型[8] - Thrive Holdings目前通过其会计和IT服务平台为超过10,000名客户提供服务[8]
AI到顶了?OpenAI首席科学家否认,行业从堆算力转向追求智能密度
36氪· 2025-12-01 08:15
AI发展态势与核心观点 - AI发展并未减速,而是沿着稳定持续的指数级曲线加速前进,外界感受到的“停滞”源于突破形态的改变,行业从一味做大模型转向构建更聪明、更能思考的模型 [1] - 技术进步总体呈平稳的指数级提升,来源于新发现、算力提升和更好的工程实现,语言模型发展呈S型曲线,预训练处于S曲线上段,扩展定律并未失效 [3] - 新的推理范式处于S曲线下部,在相同成本下能获得比预训练更多的收益,因为还有大量发现待释放 [4] 技术范式演进:从预训练到推理模型 - 预训练依然关键但已不再是唯一引擎,推理模型的出现像是给基础模型加了“第二大脑”,让模型学会推导、验证与自我纠错,而不仅是预测下一个词 [1] - 推理模型在给出最终答案前会形成“思考链条”,并能借助外部工具理清思路,其学习重点是“如何思考”本身,目标是找到更优的推理路径,训练方式从预测下一个词转向强化学习 [8] - 模型通过强化学习训练,学会质疑自己的输出,在觉得可能出错时会重新思考,这种自我验证的能力是从强化学习中自然涌现的 [12] - 从ChatGPT 3.5到当下,核心变化在于模型不再仅依赖记忆权重输出答案,而是能查网页、推理分析后给出正确答案 [5] 模型能力现状与不均衡性 - AI的“智能地形图”极不均匀,最强模型能攻克奥数难题却可能在儿童拼图里数不清物体,能写出超越专业程序员的代码却仍会误判照片的空间关系 [1] - 推理训练主要依赖科学领域数据,远不如预训练的数据广泛,导致模型能力很不均衡,某些方面极其出色但相邻领域却表现不佳 [22] - 多模态能力发展面临挑战,模型在处理图像和声音方面远不如处理文本成熟,视觉任务的基础识别不够稳健,跨模态的语义对齐是核心难题 [6][24] - 模型能解出数学奥赛题,却可能做不出一年级的数学题,而人类只需十秒就能解决,暴露了推理模型在将文本中学到的思维链策略自动迁移到视觉输入上的根本局限 [22][24] 工程挑战与优化方向 - 大量明显需要改进的地方属于工程层面问题,包括实验室基础设施和代码优化、训练方法中强化学习比预训练更棘手、数据质量是瓶颈 [6] - 数据质量是瓶颈,过去使用Common Crawl等互联网原始数据仓库需大量清洗工作,如今大公司设有专门团队提升数据质量,合成数据正在兴起但工程实现细节非常重要 [6] - 多模态推理的改进方向明确,但要取得实质突破可能需要从头开始训练新一代基础模型,这意味着数月时间和巨额资源的投入 [6] - 当前讨论的问题包括多模态推理都是可解的工程挑战而非根本性理论障碍,推理模型的“锯齿状”能力曲线会随着训练和蒸馏逐渐减小 [25] 成本效率与商业化现实 - 面对上亿级用户,成本效率已压过算力堆叠,模型蒸馏从“可选项”变为“必需品”,能否让小模型复现大模型的智慧决定了AI能否真正普及 [1] - ChatGPT拥有十亿用户,每天产生海量对话需求,需要大量GPU资源支撑,用户不愿意为每次对话支付过高费用,迫使公司开发更经济的小模型 [17] - 技术产品化后必须考虑成本,行业不再只追求最大模型,而是努力用更小更便宜的模型提供同等质量,这种降本增效的压力非常现实 [17] - 蒸馏技术重新受到重视,通过将大模型的知识提炼到小模型中,既能保证质量又能控制成本,训练超大模型仍然是蒸馏优质小模型的基础 [17] 研究资源分配与内部组织 - GPU分配主要基于技术需求,目前预训练消耗的GPU最多,资源优先分配给它,强化学习和视频模型对GPU的需求也在快速增长 [15] - 大多数实验室都在做类似工作,如改进多模态模型、提升推理能力、优化预训练或基础设施,通常有专门团队负责这些方向,人员会流动 [15] - 预训练在技术上已进入平稳发展期,投入更多算力仍能提升效果,虽然回报不如推理技术显著,但确实能增强模型能力,值得持续投入 [16] 未来发展方向与突破领域 - 多模态推理正在成熟,当AI能同时理解图像和语言,就会真正赋能机器人和科研领域,它不再只是猜测文字,而是开始在脑子里模拟真实世界的运作逻辑 [29] - 科学领域可能最先被颠覆,语言模型不再只分析数据,而是能主动提出猜想、设计实验、解读结果,到2026年底可能会在顶级期刊上看到第一篇由AI提出核心假设、人类主要做验证的论文 [29] - “自主研究”正在模糊训练和推理的边界,模型能主动设计实验、写代码、分析结果,甚至生成自己的训练数据,形成自我提升的循环 [28] - 真正的AGI里程碑是模型能自主发现新算法,而不只是完成现有任务,这需要强化学习能支持“探索未知”,而不仅限于可验证的任务 [28]
Ilya罕见发声:大模型「大力出奇迹」到头了
量子位· 2025-11-26 08:55
当前AI发展范式转变 - AI发展正从"规模化时代"重新转向"科研时代",主流"预训练+Scaling"路线已明显遇到瓶颈[1][3] - 行业过去几年普遍遵循"继续扩大"策略,但仅靠规模扩大100倍难以带来根本性转折[56][57] - 预训练最大优势在于数据量庞大且无需纠结数据选择,但最终会遇到数据有限的硬上限[33][55] 模型能力与泛化问题 - 当前模型在评测表现与经济实际影响之间存在巨大落差,模型泛化能力远不如人类[17][21][61] - 模型会出现反复犯同样错误的情况,如编程中在两个bug间来回切换[17] - 人类在语言、数学、编程等近期出现的能力上仍比模型更强,表明人类拥有更基础的通用学习能力[68][69] 训练方法演进 - 行业正从预训练规模化转向强化学习规模化,RL消耗的计算量可能已超过预训练[58] - 价值函数能让强化学习更高效,但当前强化学习训练方法简单且资源利用效率低[42][58] - 预训练数据包含人类各种活动经验,是"人类把世界投射到文本上的那一层"[33] 行业竞争格局 - 规模化时代导致公司数量远超创意数量,所有公司做同一件事挤压创新空间[76] - 真正用于纯研究的资源比外界想象少,大公司算力预算主要用于推理服务[81][84] - 未来可能出现多家公司同时拥有超级智能,技术路径和战略最终会趋同[132][136] 未来发展方向 - 关键突破在于解决模型泛化能力不足的核心问题,而非单纯扩大规模[61] - 持续学习能力比静态知识储备更重要,超级智能应是能够学习任何工作的"可成长心智"[94][95] - 构建"关爱有感知生命的AI"可能比只关心人类的AI更容易实现,因为AI本身也将具备感知能力[106][107]
Your Weekend Shortcut: One Stock to Buy, One to Sell Immediately
Investor Place· 2025-11-24 01:00
投资策略核心理念 - 采用“买这个,不买那个”的投资策略,通过区分有吸引力和无吸引力的行业及公司来获取回报 [1][4] - 该策略在短期内验证有效,两只“买入”股票平均上涨18%,而“卖出”股票下跌3% [2] - 策略可应用于区分不同行业,例如前景光明的锂行业与夕阳产业的煤炭行业 [3] - 策略也可应用于同一行业内,筛选出拥有更优管理、资产或产品的公司 [4] - 传奇投资者Eric Fry将此策略进一步系统化,用于识别在“混沌时代”中的投资机会 [5][25] 现代汽车投资价值分析 - 现代汽车公司目前估值较低,远期市盈率不足7倍 [6][7] - 公司面临挑战,包括约60%的汽车(含起亚品牌)在韩国以外生产,使其成为受美国进口关税影响最大的汽车公司 [6] - 公司第一个增长点是其通过收购波士顿动力公司获得的机器人技术优势 [10][13] - 人工智能和强化学习的进步使波士顿动力的机器人能力大幅提升,能够通过自然语言和手势控制,并自主运行 [11][12] - 现代汽车已在工厂测试波士顿动力的人形机器人Atlas,预示着在机器人领域的巨大应用潜力 [13] - 公司第二个增长点是电动汽车领域,Ioniq 5在美国受欢迎度仅次于特斯拉Model 3和Model Y [14] - 现代汽车率先开发了专属的纯电动汽车平台E-GMP,并计划在2027年推出续航超600英里的新款电动汽车 [14][15] - 韩国政府为现代汽车的电动汽车努力提供了慷慨补贴 [15] - 电动汽车业务可能推动股价上涨50%,而波士顿动力的成功可能使股价翻倍 [16] 丰田汽车投资风险分析 - 丰田汽车曾是高质量制造和创新的领导者,在1985年至2024年间美国市场份额从6%增长至15% [19][21] - 公司早期在混合动力技术方面领先,1997年推出第一代普锐斯 [19] - 丰田股票历史上交易估值较高,自2005年起平均远期市盈率为10.7倍,比现代汽车高出50% [21] - 但公司早期优势现已转变为劣势,竞争对手在多个方面已赶超 [22][23] - 在可靠性方面,斯巴鲁今年首次在客户满意度排名上超越丰田,丰田现与马自达并列第二 [27] - 在创新方面,丰田对开发电动汽车犹豫不决,担心会蚕食混合动力车销售,其主席承认电动汽车将导致供应商大量失业 [27] - 在盈利能力方面,由于现代等传统车企和比亚迪等中国新秀的竞争,股本回报率预计将降至9%以下,低于历史平均的11% [27] - 在估值方面,丰田的溢价估值使股价面临抛售风险,按市盈率计,股价需下跌至少20%才能与同行持平 [27]