Workflow
Data Efficiency
icon
搜索文档
Karpathy盛赞,啥都没有的创业公司刚融了1.8亿美元,要用小数据造强智能
机器之心· 2026-01-29 18:26
文章核心观点 - 当前主流大模型的数据效率极低,其训练数据量远超人类一生所接触的信息,而一家名为Flapping Airplanes的AI创业公司正致力于解决这一“数据效率”核心问题,并探索可能带来范式转变的新思路[1][2] - 尽管公司没有产品、没有盈利且不急于商业化,但其凭借独特的研究愿景和顶尖团队,获得了1.8亿美元融资及行业专家Andrej Karpathy的公开支持,被认为有潜力在AI基础研究上实现数量级突破[1][2][6] - 行业存在一种观点,认为新的研究型创业公司难以与科技巨头竞争,但历史证明(如OpenAI)这种观点可能是错误的,真正能带来10倍提升的研究突破依然有很高的概率出现[6][7] 公司概况与融资 - 公司名称为Flapping Airplanes,是一家专注于基础AI研究、解决“数据效率”问题的实验室[2] - 公司从GV、Sequoia和Index等机构获得了1.8亿美元融资[1] - 公司目前没有产品、没有盈利,也不急于商业化,其唯一目标是进行能够改变范式的优秀研究[1][2] - 公司名称和文化被描述为“非典型”和“out-of-distribution”,其官方推特甚至关注了旧金山机场和两大美国航司[2][5] 研究重点与目标 - 核心研究问题是提升AI的“数据效率”,旨在让模型在无需摄入海量互联网数据的情况下达到人类水平的思考[1][2] - 公司估计,人类与现有大模型在样本效率上存在10万倍到100万倍的巨大差距[2] - 为弥合这一差距,公司正在探索一些看似怪异但可能至关重要的新思路,包括重新思考损失函数,甚至质疑和重构梯度下降本身[2] - 其长期愿景是构建一个“想象中的世界”,作为AI的新防线[2] - 研究成果未来有望在企业级应用、机器人、交易系统、科学发现等领域释放巨大价值[2] 团队与行业评价 - 研究团队成员包括国际数学奥林匹克(IMO)、国际信息学奥林匹克(IOI)、国际物理奥林匹克(IPhO)等竞赛的奖牌得主[2] - 前特斯拉AI总监、OpenAI研究员Andrej Karpathy公开力挺该公司,并盛赞其具备罕见的从上到下的全栈理解能力以及对人才的极佳判断力[1][6][7] - Karpathy指出,认为小型研究公司无法与Google等巨头竞争的观点,在OpenAI成立时就被证明是错的[6] 行业背景与机遇 - 当前最先进的大模型是在数万亿token的人类历史数据上训练的,数据量远超任何人类个体一生接触的总和[1] - 前沿大模型与“一个只消耗20瓦功率的人类大脑”这一智慧奇迹之间,依然存在巨大鸿沟[7] - 尽管通过扩大规模和局部优化能带来进步,但整个领域产生了巨大的“技术尘埃”,能够带来接近10倍提升(而非10%微增)的研究级突破,其概率依然非常高[7] - 创造能孕育这种突破的环境极为罕见,而Flapping Airplanes被视为此类环境的潜在创造者[7]
OpenAI自曝GPT-4.5训练内幕:数据效率是关键,预训练仍然有用
Founder Park· 2025-04-14 19:34
GPT-4.5研发历程 - 项目启动于两年前,是OpenAI迄今为止最周密的计划,涉及数百人团队协作,几乎全员上阵[7][8] - 研发耗时远超预期,原计划耗时与实际相差甚远[16][17] - 目标为打造比GPT-4聪明10倍的模型,最终性能提升达到预期[16] 技术挑战与突破 - 10万卡计算集群暴露基础设施深层次故障,故障率高达40%进度才被发现[8][18][19] - 新一代硬件部署初期系统运行面临诸多未被充分认知的技术挑战[26] - 通过协同设计打造更强大技术栈,如今仅需5-10人即可复刻GPT-4级别模型[8][20] 数据效率与算法创新 - 未来AI发展关键从算力转向数据效率,需用相同数据学到更多知识[8][24] - Transformer架构在数据压缩方面高效,但洞察深度有限[24] - 算法改进产生叠加效应,每次提升10%-20%可显著提高数据效率[43] 模型训练范式转变 - 计算资源不再是主要瓶颈,数据成为制约因素[28] - 预训练模型性能提升可预测,但智能提升路径难以量化[31][32] - 1000万块GPU同步预训练可能采用去中心化模式,类似大脑各部分运作[42] 团队协作与系统优化 - 机器学习与系统团队密切合作,不存在工作界限[34] - 采用渐进式改进策略,严格验证每个改进在不同规模下的扩展性[35] - 理想系统尚未实现,当前仍需调和资源与理想化设计的差异[39] 理论基础与行业影响 - 智能本质是压缩,数据长尾效应让Scaling Law持续有效[47][48] - 预训练通过压缩数据发现抽象联系,与推理能力互补[45] - 无监督学习有效性基于压缩原理,更大规模训练带来更高压缩率[46][48]