Workflow
Transformer
icon
搜索文档
AI Bubble 深度讨论:万亿美元 CapEx,Dark GPU,广告电商如何带飞 AI|Best Ideas
海外独角兽· 2025-11-14 14:54
文章核心观点 - AI领域当前存在关于“泡沫”的广泛讨论,但文章通过分析巨额资本开支、算力需求、商业化前景和技术演进路径,认为AI是一场真实且长期的生产力革命,当前市场更可能高估短期影响而低估长期价值,离真正的泡沫尚远 [4][13][57] 关键问题1:OpenAI的1.4万亿CapEx意味着什么? - OpenAI计划建立30GW计算资源,对应资本投入约1.4万亿美元,并设定了2027年达到1000亿美元营收的目标,其从百亿到千亿美元的营收增长速度前所未见 [5][8] - 测算显示,即使OpenAI在2033年实现4000亿美元收入并在2029年现金流转正,最多仅能拿出约2000亿美元现金,存在约1.2万亿美元的融资缺口,而Mag 7公司2024年经营现金流总和约6402.66亿美元,加上现金储备亦不足以填补此缺口 [10][11][12] - OpenAI的巨额计划与市场是否存在泡沫需区分看待,Mag 7公司自2023年以来大规模提升CapEx且大部分投资回报率均有所提升,同时标普500公司CapEx占现金流比例平均约46%,处于健康区间,科技巨头年自由现金流约5000亿美元,具备缓冲能力 [13][16] 关键问题2:为什么算力投入规模还在扩大? - 英伟达披露Blackwell加Rubin芯片在未来五个季度订单金额达5000亿美元,即每季度约1000亿美元需求,远超其最近季度467亿美元的收入;阿里云亦表示未来十年数据中心能耗将提升10倍,对应年化CapEx增长近30% [24][25] - 模型竞争远未停止,SOTA模型更新周期从2023、2024年的半年缩短至2025年的不足一个月,头部实验室为追求能力提升和探索新范式将持续投入算力,训练投入的ROI虽可能下降,但只要边际进步持续且无参与者愿意落后,需求就难以用传统商业逻辑衡量 [26][27] - 推理侧算力需求前景乐观,AI应用落地已被初步验证,随着Agent工具使用能力增强和多模态应用爆发,需求将增长;尽管芯片进步带来成本下降,但推理成本因用户倾向使用最新模型及Reasoning等功能消耗更多Token而被抵消,导致市场未明显感知成本下降 [30][32] 关键问题3:LLM时代的“暗光纤”指标出现了吗? - 当前市场找不到闲置的GPU,以AWS Spot Instance价格衡量的GPU空闲率在10月份约为5%,表明算力供应仍然紧张,与互联网泡沫时期97%光纤闲置的“暗光纤”现象有本质区别 [37][38] - 更准确的泡沫观察指标应是巨额CapEx投入后所创造的增量收入是否合理,而非硬件是否闲置;若出现问题,代表性企业可能出现万亿级别债务违约,而当前生态复杂度远高于1999年 [39] 关键问题4:AI能增长到什么程度? - AI商业化预期核心在于用户渗透率和单用户Token使用量的双重指数增长:美国AI渗透率约40%,中国不足20%,全球其他地区仅5-10%,存在巨大提升空间;同时,Deep Research、Agent等模式使单次查询Token使用量激增,有用户非编程类支出在过去6个月增长约20倍 [43][44] - AI产品商业模式主要有订阅制、按量收费及广告/电商:订阅制面临提价困难,按量收费的逻辑受“AI使工作贬值”挑战,广告和电商则存在创造增量与抢夺存量的争论,但ChatGPT等平台query量增长及精准化潜力可能激发增量市场 [45][46][48][49][50] - AI对企业端的降本增效作用显著,如美国失业人数同比增加65%,企业缩减招聘,以及阿里云AI相关业务同比增长达100%,远高于传统云服务10%的增速,表明B端价值释放是支撑CapEx的重要基础 [41][42] 关键问题5:AI进步的“黑天鹅”是什么? - AI发展的潜在黑天鹅是出现全新模型机制,以远低于Transformer的成本实现更优效果,从而颠覆现有技术体系;但只要Transformer加强化学习的主线能持续演进,AI就难以被称为泡沫 [51][52] - 对当前技术路径能否抵达AGI存在分歧,有观点认为其面临类似自动驾驶的瓶颈,需依赖大量数据标注;而Sam Altman等则基于未来1-2年模型能力质变(如Online learning)的预期进行决策,若此乐观预期成立,则泡沫更难发生 [52][53][55] - 从资本市场角度看,英伟达P/S倍数低于30倍,投资决策仍相对理性,泡沫更多可能出现在技术被大众广泛接受且叠加降息环境的后期,例如OpenAI上市前后 [57]
AI赋能资产配置(二十一):从Transformer到Agent,量化投资实战有何变化?
国信证券· 2025-11-04 21:36
核心观点 - Transformer与Agent的深度耦合构建了“建模精准化 + 决策自动化”的一体化量化投资体系,推动AI从“单一环节赋能”升级为“全流程提效”[1] - 代表性Transformer模型GrifFinNet通过多关系图建模与自适应门控融合,在股票收益预测准确性上显著优于LSTM、XGBoost等传统工具[1][2] - 分层多智能体框架模拟“宏观-行业-企业-组合-风控”的专业投资流程,通过角色模块化与流程自动化解决纯模型“信号落地难”问题[1][3] - 未来AI赋能量化投资将向精准化、自动化、稳健化进阶,Transformer与Agent的协同优化是核心方向[1][4] Transformer:量化投资的高效建模工具 - Transformer架构凭借自注意力机制与长序列建模能力,突破了传统模型(如CAPM、GARCH、LSTM)在处理非线性关系、时序动态及多源数据融合上的局限[2][12] - 传统统计模型(如CAPM、三因子/五因子模型)基于线性假设和有效市场假说,难以捕捉金融系统中的非线性关系和动态行为[12] - 机器学习算法(如SVM、随机森林、XGBoost)能处理高维特征和非线性关系,但在建模时序依赖性方面存在不足[13] - RNN、LSTM、GNN等深度学习模型推动了时序依赖性建模,但普遍存在“时空分离建模”问题,未能实现结构依赖与时序动态的深度融合[13] - GrifFinNet模型创新性地将多关系图建模与Transformer时序编码相结合,通过构建行业归属与机构共持两类关系图、设计自适应门控融合模块、采用紧密时空集成架构,提升了对市场内部复杂依赖性的建模能力[14] Agent:量化投资的全流程智能决策体 - Agent系统构建了“宏观筛选—企业分析—组合优化—风险控制”的分层架构,以解决传统量化投资中单一技术孤立应用、数据融合难、决策层级模糊等问题[3][15][16] - 顶层宏观智能体扮演首席经济学家角色,分析宏观经济和行业信号,筛选高潜力行业[3][17] - 分析层包含四个专业化股票评分智能体:基本面智能体评估企业财务健康度、技术面智能体捕捉价格时序规律、新闻智能体提取市场情绪、研报智能体整合机构观点,解决了不同频率数据的多模态融合问题[3][17] - 配置层的组合智能体通过强化学习(如PPO算法)动态分配各分析层智能体的权重,聚合异质观点以生成综合评分并构建投资组合[3][17][26] - 防护层的风险控制智能体实时监控组合波动率,根据市场波动率动态调整整体投资组合风险敞口,有效降低最大回撤[3][17][27] - 该分层架构模拟了专业投资机构的决策流程,支持人机协作,提升了策略的可解释性、抗波动能力与合规适配性[3][17] Transformer与Agent的深度耦合应用 - 耦合体系通过“功能封装 + 流程补全”实现协同:将Transformer嵌入Agent分析层以强化特征提取(如新闻智能体用LLM提取情绪、技术面智能体捕捉价格时序规律)[4][28] - 借助Agent的流程自动化(如组合优化、仓位控制)解决Transformer信号落地的难题,打通从“建模→落地”的最后一公里[4][28][29] - 以Agent的自主交互能力(如实时数据采集、动态权重调整)弥补Transformer静态建模的缺陷,使策略能实时适配市场变化,提升稳健性与泛化能力[4][29] - 在“沪深300成分股组合构建与动态调仓”的实操中,耦合体系实现了从数据预处理到实盘交易的无缝衔接,构建了“预测精准、决策高效、风控稳健”的智能量化体系[29][32] 未来展望 - 技术层面,Transformer将进一步优化多关系建模与长序列处理能力,结合更丰富的市场关联数据(如高频交易数据、跨市场联动信息)以提升信号捕捉的颗粒度与时效性[33][35] - Agent系统将强化多智能体交互协同与动态适配能力,深化人机协作模式(如人类专家与AI智能体的协同决策),同时在合规审计与风险控制模块形成更成熟的解决方案[33][35] - 二者的深度耦合将持续构建更适配复杂金融市场环境的智能量化生态,展现出广阔的应用前景[33][35]
马斯克:5-6 年后手机大变样!科创人工智能ETF华夏(589010) 午后弱势整理,市场情绪趋于谨慎
每日经济新闻· 2025-11-04 14:43
科创人工智能ETF市场表现 - 截至13:52,科创人工智能ETF报1.386元,跌幅2.39%,全天维持震荡下行格局,分时均线呈持续压制态势 [1] - 开盘价1.418元,最高1.42元,最低触及1.386元,逼近日内低位 [1] - 成分股方面,仅1只上涨、29只下跌,奥比中光、星环科技、凌云光等跌幅居前,最大跌幅超7% [1] - 近五日资金净流入较前期显著收窄,11月3日流入约1271万元,较此前六千万级水平明显降温 [1] AI行业技术发展前景 - 特斯拉CEO马斯克预测未来5-6年传统手机与App将消失,人类消费的大多数内容将由AI生成 [2] - 未来手机将作为AI推理的边缘节点,配备无线电模块,服务器端AI将与设备上的AI通信并实时生成用户想要的视频 [2] - 银河证券指出Transformer架构带来三大结构性红利:研发侧规模效应成立、部署侧边际成本递减、数据侧出现飞轮效应 [3] - Transformer作为通用引擎将持续吞噬剩余模态孤岛,为Agent时代提供"一个模型、任意任务"的底层支撑 [3] 科创人工智能ETF产品特征 - 科创人工智能ETF紧密跟踪上证科创板人工智能指数,覆盖全产业链优质企业 [3] - 该产品兼具高研发投入与政策红利支持,20%涨跌幅与中小盘弹性助力捕捉AI产业"奇点时刻" [3]
Meta裁员、OpenAI重组:万字复盘谷歌起笔的AI史诗,如何被「群雄」改写剧本?
机器之心· 2025-11-02 09:37
AI行业格局转变 - AI行业正从“无限淘金热”转向残酷的“阵地战”,资本开始重新评估价值,巨头们审视成本与效率 [1] - Meta FAIR部门遭裁员、OpenAI进行资本重组、AWS大裁员等一系列动荡表明行业进入新阶段 [1] 谷歌的AI基因与早期探索 - 人工智能是谷歌从诞生之初的核心理念,受创始人Larry Page父亲(早期机器学习教授)的影响 [5][9] - 2000年Larry Page断言人工智能将是谷歌的终极版本,终极搜索引擎就是人工智能 [9] - 谷歌起家的PageRank算法运用统计方法排序网页,带有早期AI思想印记 [10] - 2000年末工程师提出“压缩即理解”理论,探索语言模型和机器理解,这是现代LLM思想的早期体现 [12] - 研究成果直接应用于谷歌搜索的拼写纠错功能,并开发了消耗数据中心整体资源15%的语言模型PHIL [14][16] - PHIL在2003年被用于快速实现AdSense系统,为谷歌带来数十亿美元新收入 [15] 深度学习革命与谷歌的拥抱 - 2007年Geoff Hinton将深度学习火种带入谷歌,当时神经网络正被学术界边缘化 [20] - 谷歌的统计方法本身是对僵化专家系统的反叛,为结合深度学习奠定基础 [21] - 2011年吴恩达、Jeff Dean等发起Google Brain项目,目标构建大规模深度学习模型 [27] - Jeff Dean主导开发DistBelief分布式计算系统,采用有争议的异步更新参数方式但被证明高效 [28][29] - Google Brain的“猫论文”实验使用16000个CPU核心训练,神经网络自主学会识别猫脸 [30] - “猫论文”证明无监督学习能力,催生YouTube算法推荐时代,驱动数百亿乃至数千亿美元产业价值 [32][33][34] 关键突破与硬件变革 - 2012年AlexNet在ImageNet竞赛中将错误率从25%以上降至15.3%,提升超过40% [35][37] - AlexNet创造性使用NVIDIA GPU进行并行训练,确立GPU作为AI计算核心硬件的地位 [39] - 谷歌因应算力瓶颈,自研专门用于神经网络计算的TPU芯片,15个月内完成设计到部署 [62][63] - TPU针对矩阵运算优化并采用低精度计算,为谷歌提供成本优势和战略自主权 [63] 人才争夺与实验室建立 - 谷歌以约4400万美元收购AlexNet核心团队DNN Research,被认为是史上最划算交易之一 [41][42] - 2013年扎克伯格力邀Yann LeCun建立FAIR实验室,采用开放研究模式 [43][45][47] - FAIR为Meta提供核心技术、开源工具PyTorch以及Llama系列开源模型 [48] - 2014年谷歌以约5.5亿至6.5亿美元收购DeepMind,但其后与Google Brain存在内耗 [56][57] - DeepMind在AlphaGo项目中击败李世石,并将谷歌数据中心冷却能耗降低40% [58] OpenAI的崛起与转型 - 2015年因马斯克对谷歌垄断的担忧,联合Sam Altman创立OpenAI,获10亿美元初始承诺 [64][65][68] - Ilya Sutskever被使命吸引离开谷歌加入OpenAI,尽管Jeff Dean提供双倍薪酬反聘 [66] - 2018年OpenAI因资金压力重组,设立利润上限子公司并获得微软10亿美元投资 [86][87] - OpenAI转型开发GPT系列模型,GPT-3展现出惊人能力,GitHub Copilot成为首个大规模落地产品 [90][91] - 2021年Dario Amodei因安全与商业化分歧带领核心成员出走,创立Anthropic [92][95] Transformer架构与新时代 - 2017年谷歌发表《Attention Is All You Need》论文,提出Transformer架构 [74][76] - Transformer解决RNN/LSTM序列处理难题,具备高度并行化优势 [76] - 架构展现出“更多数据+更大模型+更多算力≈更好智能”的可扩展性 [80][81] - 谷歌允许论文公开发表,将“钥匙”交给全世界,包括潜在竞争对手 [84] - 论文八位作者后来相继离开谷歌 [84] ChatGPT冲击与谷歌反击 - 2022年11月ChatGPT发布,一周用户破百万,两个月破亿,成为史上增长最快消费应用 [97] - ChatGPT成功震醒谷歌,Sundar Pichai拉响“Code Red”红色警报 [99] - 微软迅速追加100亿美元投资OpenAI,并发布新版Bing搜索引擎直指谷歌核心业务 [99] - 谷歌仓促推出Bard但出现事实错误,促使公司进行大刀阔斧改革 [102][103] - 2023年谷歌合并Google Brain和DeepMind,组建统一Google DeepMind部门由Demis Hassabis领导 [105][106] - 谷歌All in Gemini项目,集中精英力量开发统一多模态旗舰模型系列 [105][106] - Gemini系列快速迭代,Gemini 2.5 Pro成为顶尖模型,并整合进搜索等产品 [107] - Google DeepMind在AI for science领域突破,AlphaFold 2解决蛋白质折叠问题,团队获2024年诺贝尔化学奖 [107][108] 当前竞争格局 - 谷歌一度受大公司体制束缚将王牌拱手让人,OpenAI成为最具实力玩家之一 [109] - Meta曾稳坐开源王座,如今在军备竞赛与成本效益平衡中艰难变革 [109] - 中国AI力量异军突起,DeepSeek、Qwen、Kimi等奋力追赶 [109] - 行业没有永远王者,巨头霸权可能被自身问题拖垮,后起之秀威胁迫近 [110]
全球首个「百万引用」学者诞生!Bengio封神,辛顿、何恺明紧跟
自动驾驶之心· 2025-10-26 00:03
AI领域学术影响力里程碑 - Yoshua Bengio成为全球首位论文引用量突破100万次的学者,标志着AI学术影响力达到新高峰[2][3] - Geoffrey Hinton以97万次引用紧随其后,有望成为全球第二位突破百万引用的学者[5] - 深度学习三巨头(Bengio、Hinton、Yann LeCun)共同获得2018年图灵奖,其中LeCun引用量超过43万次[6][7][13] 顶尖AI研究者学术成就 - Yoshua Bengio在全球计算机科学领域排名第一,总引用量987,920次,近五年引用量711,796次,占比72%[8] - Geoffrey Hinton全球排名第二,总引用量963,982次,近五年引用量588,843次,占比61.1%[8] - 何恺明论文总被引超过75万次,其2016年发表的深度残差网络(ResNets)论文被引298,327次,是二十一世纪被引用次数最多的论文[48][51] - Ilya Sutskever论文总被引超过70万次,作为OpenAI和ChatGPT缔造者,与Hinton存在师徒关系[53][18] AI论文引用爆发式增长原因 - 2012年AlexNet在ImageNet上的突破性表现被视为深度学习"引爆点"[20] - 2017年Transformer架构提出和2018年BERT模型出现,推动预训练/微调范式发展,带来AI论文二次爆发[24] - 2010-2022年全球AI论文总量从约8.8万篇增长至24万篇以上,实现近三倍增长[30] - AI论文占计算机科学论文比例从2013年的21.6%升至2023年的41.8%,几乎占据计算机科学领域一半论文[31][32] AI领域学术会议活跃度 - ICLR 2024接收论文2260篇,投稿量较2023年增加2324篇[36] - NeurIPS 2024总投稿17491篇(主会15671篇),接收4497篇[36] - CVPR 2024投稿11532篇,接收2719篇,录用率23.6%[36] 其他高影响力AI研究者 - GAN之父Ian Goodfellow引用量38万+[61] - 谷歌人工智能负责人Jeff Dean引用量37万+[61] - ImageNet创建者李飞飞引用量32万+[61] - LSTM之父Juergen Schmidhuber引用量29万+,其1997年LSTM论文被引136,740次[61][67] - Coursera创始人吴恩达引用量29万+[61] - Gemini技术负责人Noam Shazeer引用量28万+,其参与的"Attention is All You Need"论文被引209,694次[61][69]
Meta打碎Transformer 8年铁律,改写AI最底层规则,模型首次冒出潜意识
36氪· 2025-10-24 19:47
核心观点 - Meta推出名为“自由Transformer”的新模型,首次打破自2017年以来所有GPT模型的核心规则,模型在生成前能进行“预先思考”,而不再是逐token盲猜式生成[1] - 该创新通过在解码器中引入潜在随机变量Z,为Transformer增加一层“潜意识”,使模型能够早期做出全局决策,从而产生更一致和稳定的输出[3][10][22] - 这一架构变革仅增加约3%的计算开销,但在GSM8K、MMLU、HumanEval等多项基准测试中表现显著提升,可能标志着AI模型从“预测下一个词”迈向“思考如何表达”的重要节点[3][24][31] 技术架构创新 - 模型在解码器中引入了潜在随机变量Z,可视为生成文本前的“潜意识层”,模型会采样内部选择来引导整个序列的风格或结构[4] - 技术实现是通过内置在Transformer内部的条件变分自编码器完成的,Meta将其命名为Free Transformer[4] - 与标准Transformer仅根据前序token预测下一个token不同,Free Transformer先采样一个随机状态Z,然后让每个标记都基于该状态生成[7][20] - 在训练过程中使用编码器帮助模型学会选取良好的隐藏状态,但在推理时跳过编码器,直接采样隐藏状态并仅运行解码器,这避免了使成本翻倍的问题[8][9][12][13][14] - 该设计使模型仅增加约3-4%的FLOPs计算开销,大幅降低了计算负担[15][19] 性能表现 - 在1.5B参数模型上,Free Transformer在多项测试中表现显著提升:HumanEval+得分最高提升55.56%,MBPP测试最高提升35.71%,GSM8K数学题集最高提升30.30%[26][28] - 在8B参数模型上同样观察到性能改善:HumanEval+得分最高提升19.23%,MBPP测试最高提升18.71%,GSM8K数学题集最高提升20.18%[30] - 模型训练保持稳定,没有出现训练崩溃或异常波动[27] - 潜在变量Z被证明能够编码有用的全局结构信息,如主题、情感或模式位置,而不会过拟合[17][38] 潜在变量机制 - 潜在随机变量Z从65536种可能性中选取,由16个独立比特构建而成[18] - 采用KL散度惩罚结合自由比特方法进行训练,防止隐状态记忆整个序列,仅在散度大于阈值κ时添加KL损失[17] - 通过控制κ值(从1/64 bit到8 bits),可以调控Z携带的信息量:信息过少则模型表现接近普通解码器,信息过多则会导致训练退化[37][38] - 在合成任务测试中,Z成功学会了编码目标位置和噪声模式等全局属性,证明了其规划能力[32][35][36][38] 行业影响 - 这一突破可能动摇持续8年的Transformer底层架构,改写AI最底层规则[1][3] - 该研究来自Meta的FAIR实验室,由Yann LeCun领导的团队进行,专注于超越LLM的下一代人工智能研究[39][41][43] - 创新标志着Transformer思维方式的重塑,从“预测下一个词”迈向“思考如何表达”,可能开启后自回归时代[30][31]
八年后,Meta教会了Transformer「显式思考」
机器之心· 2025-10-24 11:40
文章核心观点 - Meta公司提出名为Free Transformer的新架构,打破了自2017年以来GPT模型的核心规则 [4] - 新方法在解码器内部加入随机潜在变量,使模型在生成内容前能进行内部规划,类似于赋予模型“隐藏的心智” [4] - 在15亿和80亿参数模型上,该方法在代码生成、数学文字题和多选任务上取得明显性能提升 [6][27][31] 技术架构创新 - Free Transformer是一种新解码器Transformer扩展,使用无监督潜在变量来提高下游任务性能 [4] - 架构是在标准解码器结构的中间层注入噪声Z,允许与编码器共享一半的Transformer模块,显著减少计算开销 [9] - 编码器使用非因果结构和可学习的常数token嵌入,旨在捕捉序列全局特征,增强跨任务可迁移性 [14] - 通过二进制映射器将编码器输出的向量转化为独热向量表示,维度为2^H(H=16) [15][16] 实验验证与性能表现 - 在合成数据集上验证了模型确实利用潜在变量Z对生成过程进行条件化,不同KL散度值下模型表现出不同编码行为 [18][21] - 15亿参数模型在代码生成任务HumanEval+上最高提升55.56%(从0.055至0.085),数学推理任务GSM8K最高提升30.30%(从0.025至0.033) [26] - 80亿参数模型经过1万亿tokens训练后,在HumanEval+上提升11.36%(从0.268至0.299),MMLU提升5.20%(从0.592至0.623) [30][31] - 性能提升在需要推理能力的任务上尤为显著,包括代码生成、数学问题和多选常识问答 [27][31]
20分钟读懂AI史上最重要的一篇论文——《Attention Is All You Need》
虎嗅· 2025-10-22 21:05
行业技术发展 - Transformer架构于2017年通过论文《Attention Is All You Need》首次提出,彻底改变了人工智能的技术路径 [1] - 该架构推动了全球AI领域的“军备竞赛”,并催生了包括OpenAI在内的行业巨头迅速崛起 [1] 核心技术解析 - Transformer的核心思想源自注意力机制,涉及Q/K/V、多头注意力、位置编码以及Decoder的mask机制等关键概念 [1] - 该技术实现了从逐字生成文本的功能,其原理可通过基础数学概念理解 [1] 行业人才动态 - 提出Transformer架构的8位论文作者均已离开Google并投身创业 [1] - 这些创始人在创业过程中创造了惊人的财富传奇 [1]
速递|OpenAI 日本竞争对手 Sakana 正洽谈以 25 亿美元估值融资
Z Potentials· 2025-10-22 10:38
融资与估值 - 公司正以25亿美元估值洽谈1亿美元融资,若融资成功估值将达26亿美元,较一年前估值上涨66% [2] - 新融资计划用于扩充工程及销售分销团队,目前公司员工约70人 [2] - 公司此前股权融资累计达2.3亿美元,并获得日本政府专项补贴用于支付AI训练算力成本 [3] 技术与研发 - 公司AI研发技术与OpenAI、Anthropic及谷歌的技术路线存在差异,试图通过开发受自然界概念(如进化)启发的AI来挑战Transformer架构 [2][5] - 公司发布名为“进化 ShinkaEvolve”的开源软件,将LLMs与算法结合以提出多种问题解决方案并筛选最优选项,声称比传统Transformer更高效且在创造性解决方案方面表现更优 [7] 合作伙伴与市场定位 - 公司属于区域性AI开发者阵营,专注于开发能更精准把握当地语言文化特色的人工智能,战略与母国减少对中美AI技术依赖的诉求相契合 [2] - 公司已与日本数家大型金融机构达成AI开发合作协议,包括三菱UFJ金融集团和日本最大券商之一的大和证券集团 [2][7] - 公司投资方云集日本三大商业银行、科技巨头富士通和NEC、综合商社伊藤忠商事、电信运营商KDDI等日系巨头,以及美国风投机构NEA、科斯拉创投、Lux Capital和英伟达 [3] 竞争环境 - 公司面临来自美国AI开发商的竞争,这些企业正将日本作为全球扩张战略的一部分,例如OpenAI宣布与软银成立合资企业在日本独家销售其工具套件,并承诺每年投入30亿美元采购OpenAI技术 [3][4] - Anthropic在任命日本区负责人后正准备开设东京办事处,加拿大公司Cohere同样于8月聘请了日本区总经理 [4] 公司背景与目标 - 公司由前谷歌研究人员David Ha和Llion Jones于2023年创立,Llion Jones是原始Transformer模型架构研究论文的合著者 [4] - 首席执行官David Ha曾公开表示公司将在一年内实现盈利运营,并打算打造一个“日本的DeepMind” [2][4][7]
Karpathy泼冷水:AGI要等10年,根本没有「智能体元年」
36氪· 2025-10-21 10:15
AGI发展时间线 - 行业普遍鼓吹的“智能体元年”存在过度预测,更准确的描述应为“智能体的十年”[3][4] - 当前智能体仍处于非常初期的阶段,需要大约十年的持续研究工作才能让其真正可用[4][5] - 基于在AI行业约15年的经验和个人直觉,预测AGI的到来还需要10年时间[5][6][7] AI技术架构演进 - 预测未来10年AI的核心架构仍可能基于Transformer,但形态会有所演化[8] - 根据“时间平移不变性”,10年后仍将使用前向后向传播和梯度下降来训练巨大的神经网络,但所有组件都会变得更大[9][10] - 算法改进仅能将误差减半,进一步提升必须依靠更大的数据、更强的计算力和更优的软件系统,算法、数据、硬件与系统的进步缺一不可[12] 智能体现状与挑战 - 当前智能体存在智能不足、多模态能力弱、无法自主操作电脑等主要问题[4] - 智能体在认知上存在缺陷,缺乏持续学习能力,这些基础性问题的解决约需十年[5] - 在编码任务中,“手写+自动补全”是目前最佳选择,智能体擅长样板代码但处理“智力密集型代码”能力不足[13][15][16][17][18][20] 强化学习与模型训练 - 强化学习虽不完美,但相比过去仅模仿人的方法,仍是目前最优解[21][22] - 强化学习过程会产生大量噪声,且大语言模型充当评委时易被对抗性样本欺骗,存在泛化能力不足的问题[23][24] - 未来可能需要引入“元学习”或合成数据机制来改进模型评估,但目前尚无实验室在大规模通用环境下成功实现[26][27] 人工智能与人类学习对比 - 当前大模型仅通过预测下一个词学习,缺乏人类通过反思、讨论整合知识的“思考”过程[28] - 人类“不擅长记忆”是进化优势,迫使其学习可泛化模式,未来AI应减少机械记忆,更多依靠思考与探索[28][30] - 真正的智能不在于记忆更多,而在于理解与泛化,需要构建大模型压缩记忆工作,重点发展认知部分[30] AI对社会与工作的影响 - 通用人工智能被定义为能够以人类或更好的表现完成任何有经济价值任务的系统,但已从最初定义中移除了物理性任务[31] - 放射科医生和呼叫中心等工作未被完全自动化,因其涉及复杂工作场景,理想状态是AI完成80%工作量,人类监督完成剩余20%[32][33][34] - 更看重AI与人类的互补关系,而非替代关系,现实中许多工作比呼叫中心员工的工作复杂得多[35][36] 超级智能与社会自动化 - 超级智能被视为社会自动化进程的自然延伸,将出现越来越多从事数字工作和体力工作的自主实体[37] - AI驱动的自动化会显得“非常陌生和奇怪”,当世界在计算机集群上运行时,人类可能逐渐失去对正在发生的事情的控制和理解[37] - 从工业革命开始,递归式自我改进和智能爆炸已持续数百年,我们处于“智能爆炸”中已有几十年[37][38]