Transformer
搜索文档
谷歌祭出Transformer杀手,8年首次大突破,掌门人划出AGI死线
36氪· 2025-12-08 09:01
谷歌DeepMind对AGI发展路径的预测 - 谷歌DeepMind CEO Hassabis预测,具备或超越人类能力的通用人工智能(AGI)可能在2030年之前实现,距离实现AGI仅剩5到10年时间 [1][11] - 实现AGI需要1-2个类似Transformer或AlphaGo级别的重大技术突破 [1][4] - 通往AGI的道路存在风险,包括恶意使用AI可能导致的灾难性后果,甚至存在非零的灭绝级风险 [13] 当前AI系统的能力与局限 - 谷歌DeepMind对AGI的定义要求很高,需全面具备人类所有认知能力,包括创造力和发明能力 [16] - 当前大语言模型能力参差不齐,在某些领域达到博士水平甚至能获奥林匹克金牌,但在持续学习、在线学习、长期规划和多步推理等关键能力上存在明显缺陷 [16][18] - 谷歌Gemini模型已展现出超出预期的“抽象理解”和“元认知”能力,例如能理解电影场景的象征意义,但开发人员对其潜力的探索可能不足10% [14][15] 谷歌下一代AI架构Titans的技术突破 - 谷歌在NeurIPS 2025大会上发布了全新AI架构Titans,被视为Transformer的“最强继任者” [6][21] - Titans架构完美融合了RNN的极速响应和Transformer的强大性能,旨在解决Transformer在处理超长上下文时计算成本飙升的瓶颈 [7][24] - Titans引入了一种全新的神经长期记忆模块(一个深层多层感知机MLP),能够主动学习并即时更新参数,实现“测试时”记忆,在高达200万token的上下文中保持高召回率和准确率 [8][26][29][43] 统一理论框架MIRAS及新模型 - 谷歌同时提出了MIRAS理论框架,为序列建模提供了统一视角,将各种架构视为解决“融合新信息与保留旧记忆”核心问题的不同手段 [33][34] - MIRAS通过四个关键设计维度定义序列模型:记忆架构、注意偏置、保留门和记忆算法 [36][37] - 基于MIRAS框架,谷歌构建了YAAD、MONETA、MEMORA三款独特的无注意力模型,这些模型在语言建模和常识推理任务中表现出色,验证了探索非均方误差优化机制的优势 [40][41][42] Titans架构的性能表现 - 在多项基准测试中,Titans架构在同等参数规模下,性能优于最先进的线性循环模型(如Mamba-2和Gated DeltaNet)以及Transformer++基线模型 [40][41] - 在BABILong超长上下文推理基准测试中,Titans以更少的参数量,表现优于包括GPT-4在内的所有基线模型,并展示了可有效扩展到超过200万token上下文窗口的能力 [43] - 这些新架构保持了高效的并行化训练和快速的线性推理速度 [42] 未来AI发展趋势 - Hassabis指出,未来12个月的关键趋势包括:继续扩展现有AI系统规模,这至少会成为最终AGI的“关键构件” [3][18] - 多模态融合将彻底打通,实现类人的视觉智能、语言与视频的深度融合,世界模型成为主流,智能体达到可靠应用水平 [9] - 行业认为,Titans可能是谷歌自Transformer以来的首个重大突破,并预测采用该架构的Gemini 4可能即将推出 [45][47]
AI 赋能资产配置(二十九):AI 预测股价指南:以 TrendIQ 为例
国信证券· 2025-12-03 21:18
核心观点 - AI大模型通过强大的信息收集和分析能力弥补了传统股价预测模型因缺乏非结构化信息而表现波动的缺陷[3] - TrendIQ平台展示了AI技术在股价预测上的能力圈,提供本地化部署和网页版两种选择,分别具备安全性和易用性优势[4] - 预测框架从基于LSTM的混合模型向Transformer架构演进,利用全局上下文感知、零样本学习和思维链推理提升预测能力[8] - 未来AI股价预测将向多模态融合和实时RAG方向发展,结合视觉、文本和时序分析提升鲁棒性[40] AI股价预测技术演进 传统LSTM模型的优势与局限 - LSTM模型因能处理非线性问题和时间序列特性,成为股价预测的"门面担当",其神经元包含细胞状态和输入门、遗忘门、输出门三种门机制[5] - 机器学习时代LSTM与XGBoost结合捕捉时间依赖性和非线性关系,强化学习时代与xLSTM和深度强化学习结合优化长依赖捕捉问题[6] - LSTM存在三大局限性:模态单一性导致无法理解市场因果关系;解释性较弱被视为黑盒模型;泛化鲁棒性弱难以跨市场迁移[6][7] Transformer架构的创新突破 - Transformer架构通过全局上下文感知能力同时关注输入序列所有元素,捕捉微小但关键的市场信号[8] - 具备零样本与少样本学习能力,凭借海量通用语料预训练快速适应新兴资产预测任务[8] - 思维链推理将预测过程分解为逻辑步骤,提供宝贵可解释性,例如"通胀数据高于预期→央行加息概率增加→贴现率上升→高估值科技股承压"的推理链条[8] TrendIQ平台架构解析 本地化部署运行流程 - 训练阶段通过train_multiple.py和quick_train.py收集历史数据(使用yfinance),预处理后训练LSTM模型并保存文件,quick_train.py预设AAPL、GOOGL、MSFT、TSLA和AMZN五只热门股票训练[12][14] - 检查阶段通过check_models.py验证训练结果完整性,扫描data/目录统计模型数量和质量状态[18] - 运行阶段通过app.py启动Flask服务器,提供用户界面进行实时预测,包含价格预测、图表展示和置信度计算功能[20] 核心代码模块功能 - train_multiple.py作为批量处理引擎支持扩展股票列表(包括META、NVDA、NFLX等),提供三种训练模式:全量训练、自定义股票训练和单股票训练[17] - app.py整合预测功能,通过/live-ticker接口获取实时股价数据,/predict接口处理用户输入,基于60天历史数据进行LSTM预测并给出30天波动率计算的置信度[20] 本地部署与线上平台对比 本地部署实施步骤 - 软件包下载通过PowerShell或git bash获取完整项目结构,需Python 3.8以上环境支持[21] - 安装阶段一次性安装Flask、TensorFlow、NumPy、Pandas、Scikit-learn、YFinance、Joblib等依赖包[23] - 数据训练通过quick_train.py执行约10-15分钟的训练过程,为五只热门股票生成模型文件[24] - 本地运行通过python app.py启动服务,访问http://127.0.0.1:5000即可使用预测功能[28] 线上平台操作流程 - 用户通过Google账号或邮箱登录TrendIQ网页版,支持一键登录[32] - 预测功能分为Swing Trading(60分钟线及以上趋势预测)和Scalp Trading(5分钟及以内趋势预测),用户上传K线截图即可分析[33][34] - 预测结果包含三部分:多空趋势研判、止盈止损位置(如当前价6410对应止盈6685和止损6280)、具体判断理由(如上涨趋势建立、均线多头排列等)[36] 平台效果对比分析 - 本地版TrendIQ输入股价序列和成交量数据,使用LSTM模型,输出目标价和置信区间,对海外大市值、标准化程度高个股预测效果较好[41] - 线上版TrendIQ输入K线图,使用LSTM+LLM/LSTM+VAE模型,输出多空建议和止盈止损线,在多头排列环境中主升阶段判定准确,但震荡市胜率一般且大回撤时缺乏前瞻性[41] 未来技术演进方向 模型架构创新 - 学术界正用Transformer架构与图神经网络逐步取代LSTM,解决长序列依赖和高维数据处理问题[39] - Time-VLM和TimeRAG等新框架尝试将K线图作为图像处理,结合LLM文本理解和数值模型分析,实现多模态融合[40] 实时能力提升 - 实时RAG技术将连接外部知识库,在预测时主动搜索最新供应链动态和政策变化,缓解模型过时问题[40] - 多模态系统能在股价暴跌时同时识别技术破位形态、解读相关新闻事件并计算历史波动率,提升判断准确性[40]
扩散模型走了十年弯路!何恺明重磅新作JiT:回归真正“去噪”本质
自动驾驶之心· 2025-12-01 08:04
文章核心观点 - MIT何恺明团队提出极简扩散模型架构JiT,让模型直接预测干净图像本身,而非预测噪声或混合噪声 [10] - 该方法在高维像素空间中表现更强、更稳、更简单,无需潜在空间、分词器、预训练或额外损失函数 [11][13] - 直接预测干净图像的任务更简单,因为自然图像位于低维流形上,而噪声是高维乱流,网络容量有限时预测噪声会导致模型崩溃 [14][15][17] 技术原理与创新 - 核心思想是让网络预测干净数据,而非噪声或混合噪声,通过数学推导证明直接输出干净图像可使任务更简单 [18][19] - 即使在高维场景如3072维patch(32×32×3)中,只有直接预测干净图像的方式不会崩溃 [20] - 框架仅使用Vision Transformer直接在原始像素patch上操作,输入输出均为像素patch,结构极简 [17] 模型性能与实验结果 - 在ImageNet 256×256分辨率上,JiT-L/16模型FID达到2.36,JiT-G/16模型FID达到1.82,与依赖复杂潜在空间的大型扩散模型性能相当 [30] - 在512×512分辨率下,JiT-H/32模型FID为1.94,JiT-G/32模型FID为1.78,证明在3072维高维patch下仍能稳定训练 [31] - 在1024×1024超高分辨率下,JiT-B/64模型FID为4.82,且计算成本几乎不随分辨率增加而上升,序列长度保持恒定 [32] 架构优势与反直觉发现 - 即使将patch embedding压缩至低维瓶颈(如32维甚至16维),模型不仅未崩溃,FID指标反而显著提升,与低维流形假设一致 [27][28][35] - 模型可处理高达12288维的patch(64×64×3),完全摆脱潜在空间,在原生像素空间自洽工作 [24][25] - 该方法特别适合需要处理原始高维数据的领域,如具身智能和科学计算,有望成为更通用的生成基础方式 [34]
80后诺奖得主:AlphaFold下一步融合大模型
量子位· 2025-11-28 12:11
AlphaFold的发展历程与现状 - 由谷歌DeepMind开发,能精确预测蛋白质三维结构的AI科研工具[8],利用序列和结构数据库中的大量实验数据训练网络以发现氨基酸序列间的关联和模式[9] - 自2020年AlphaFold2首次公开后,迅速成为结构生物化学领域的坚实基座,并陆续推出可预测多个蛋白质结构的AlphaFold Multimer以及迄今速度最快的AlphaFold 3[12] - 从最初的蛋白质结构预测,发展到能处理更复杂的多分子复合体及更广范围的生物分子交互[13],已帮助全球超过300万研究人员预测了数亿种蛋白质结构,影响了超过50万篇相关论文[3] - 标志着生命科学继量子力学和分子生物学革命后的又一次重大跃迁[4],并已在科研中实现工具化,成为当代实验设计的重要组成部分[23] AlphaFold的具体科研应用与突破 - 在心血管疾病研究方面,帮助密苏里大学团队揭示了坏胆固醇(LDL)核心蛋白ApoB100的原子级笼状结构,为治疗提供了理论依据,成果发表于《Nature》[14][15][17] - 在生态保护领域,帮助研究人员在两天内解密了与蜜蜂免疫力相关的关键蛋白Vitellogenin(Vg)的近原子级结构,完成了过去需数年的工作,对濒危种群保护起到关键作用[18][20] - 展现出非常规应用潜力,如被用于预测蛋白质合成设计的成功率,或作为搜索引擎在成千上万个候选蛋白中筛选最可能与目标蛋白结合的蛋白[21][22][23] AlphaFold的未来发展方向 - 核心开发者John Jumper公开表示,下一步是与大模型融合[1][26],目标是使AlphaFold在预测结构之外,还能读懂科学文献数据、进行科学推理、提出假设、设计实验流程甚至自动生成研究思路[26][27] - 未来将能更好地帮助理解更复杂的多分子多功能系统,例如蛋白之间、核酸(DNA/RNA)之间的相互作用等生物过程[27] - 技术思路可能与谷歌面向数学和计算机科学领域的AlphaEvolve系统类似,即使用一个大模型生成解决方案,再用第二个模型检查并过滤错误信息[28][29] AlphaFold的核心开发团队与关键突破 - 由DeepMind创始人兼CEO哈萨比斯和首位"80后"诺贝尔化学奖得主John Jumper领导开发[30][32],Jumper拥有数学、物理及理论化学背景,其博士论文即研究将机器学习应用于蛋白质动力学[33][34] - 初代AlphaFold在第13届CASP中崭露头角,成功预测43个蛋白质中的25个,证明了"机器学习+统计信息"推断蛋白质结构的可行性,但预测质量尚不足以实际应用[41][42] - 关键突破在于采用Transformer架构重构出AlphaFold 2,其预测结构精度达到1.5埃(约一个原子宽度),并在CASP 14竞赛中将准确性均分从60多分提升至92.4分(此前其他方法约40分),成功解决了困扰学界50余年的蛋白质折叠问题[44][48][50][52][53][54]
谷歌AI往事:隐秘的二十年,与狂奔的365天
36氪· 2025-11-27 20:13
公司近期业绩与产品表现 - Gemini应用月活跃用户从上一季度的4.5亿大幅提升至6.5亿[2] - Gemini 3在各类主流基准上展现统治级表现,Nano Banana Pro模型将AI生图精度与想象力提升到新高度[2][43] - 公司进入罕见的产品加速期,接连发布视频模型Veo 3、虚拟世界生成模型Genie 3等“王炸”产品[43][44] 公司AI技术发展历史与积淀 - 公司二十多年间的AI投资贯穿现代深度学习绝大部分关键节点,从拉里·佩奇对“终极搜索引擎”的想象,到“猫论文”、DeepMind、TPU[4][6] - 在Transformer论文发表前十年,世界上几乎所有知名AI人才都曾在公司工作过[5] - 公司首次语言模型实验始于2000年左右,开发出拼写纠错功能,并进化出内部昵称为PHIL的概率语言模型[10][11] 关键技术突破与商业影响 - 2012年“猫论文”使用16000个CPU核心训练九层神经网络,通过无监督学习识别YouTube视频中的猫,证明无监督学习可行性[14][15] - “猫论文”技术催生推荐系统机制,被应用于YouTube并奠定其全球最大视频平台基础,后续被Facebook、Instagram、字节跳动效仿,创造数千亿美元收入[15][17] - 公司开发出Transformer架构,其模型彻底碾压基于LSTM的谷歌翻译方案,证明模型规模越大效果越好[34] 重要收购与人才战略 - 2014年以5.5亿美元收购DeepMind,获得最豪华AI研究团队,但收购间接导致OpenAI、Anthropic、xAI等公司诞生[22][23][24] - 收购DeepMind后,公司向英伟达订购4万块GPU,订单价值1.3亿美元,后继续花费数亿美元购买GPU[25][27] - 为应对ChatGPT威胁,公司将Google Brain和DeepMind合并为Google DeepMind,并召回谢尔盖·布林等顶级人才参与Gemini项目[42] 自研芯片与基础设施 - 为解决GPU成本过高和算力不足问题,公司自研TPU芯片,专门针对神经网络矩阵乘法进行优化,效率远高于当时GPU[28][29][30] - TPU通过降低计算精度提高效率,避免公司向英伟达支付高额溢价(英伟达GPU系统毛利率高达75%至80%)[31] - 自研TPU使公司建立规模几乎与英伟达相当的芯片研发体系,服务于自身和谷歌云客户[30] 战略误判与危机应对 - 公司早期已开发出与ChatGPT接近的聊天机器人Mina,但因失控风险、收入模式冲突和法律风险未发布[36][37] - ChatGPT的出现使公司意识到AI从持续性创新转变为颠覆性创新,对构成生存威胁,内部发布红色警报[41][42] - 公司决定结束多模型并存局面,集中资源打造多模态旗舰模型Gemini,并于2023年5月宣布计划后,同年12月发布公共测试版本[42][43]
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
量子位· 2025-11-18 13:02
技术突破与核心优势 - 采用单一视觉Transformer架构实现从单张图像、多视角照片到视频的任意视图3D重建,极大简化了模型设计[1][2][7] - 模型核心预测目标仅聚焦于深度和光线两个关键参数,通过双任务头输出深度图和光线参数[7][10] - 在全新视觉几何基准测试中,相机定位精度平均提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2[3] 模型架构与工作流程 - 输入处理环节将多视角图像转化为特征块,相机参数通过编码器或可学习token处理,最终与图像特征融合[9] - 核心Transformer基于预训练的DINO,通过单视角自注意力和跨视角自注意力机制适应不同输入形式[9] - 除了深度和光线预测,模型还能从特征中提取相机姿态信息,确保相机运动轨迹精准[11] 训练策略与性能表现 - 采用师生蒸馏训练策略,利用教师模型从海量数据生成高质量伪标签,降低对精确标注数据的依赖[13][14] - 在整合了5个室内外数据集的基准上,模型能生成密度更高、噪声更低的3D点云,质量明显优于传统方法[14][16][17] - 支持从少量场景图片进行视角补全,生成未拍摄角度的图像,在虚拟漫游和数字孪生领域应用潜力巨大[19] 团队背景与行业影响 - 项目由字节跳动研究科学家康炳易带队,其领导的Depth Anything系列此前已被苹果CoreML库收录[20][25] - 核心研究人员拥有加州伯克利和新加坡国立大学人工智能专业背景,并与谢赛宁等业内专家有过合作[23][24]
AI Bubble 深度讨论:万亿美元 CapEx,Dark GPU,广告电商如何带飞 AI|Best Ideas
海外独角兽· 2025-11-14 14:54
文章核心观点 - AI领域当前存在关于“泡沫”的广泛讨论,但文章通过分析巨额资本开支、算力需求、商业化前景和技术演进路径,认为AI是一场真实且长期的生产力革命,当前市场更可能高估短期影响而低估长期价值,离真正的泡沫尚远 [4][13][57] 关键问题1:OpenAI的1.4万亿CapEx意味着什么? - OpenAI计划建立30GW计算资源,对应资本投入约1.4万亿美元,并设定了2027年达到1000亿美元营收的目标,其从百亿到千亿美元的营收增长速度前所未见 [5][8] - 测算显示,即使OpenAI在2033年实现4000亿美元收入并在2029年现金流转正,最多仅能拿出约2000亿美元现金,存在约1.2万亿美元的融资缺口,而Mag 7公司2024年经营现金流总和约6402.66亿美元,加上现金储备亦不足以填补此缺口 [10][11][12] - OpenAI的巨额计划与市场是否存在泡沫需区分看待,Mag 7公司自2023年以来大规模提升CapEx且大部分投资回报率均有所提升,同时标普500公司CapEx占现金流比例平均约46%,处于健康区间,科技巨头年自由现金流约5000亿美元,具备缓冲能力 [13][16] 关键问题2:为什么算力投入规模还在扩大? - 英伟达披露Blackwell加Rubin芯片在未来五个季度订单金额达5000亿美元,即每季度约1000亿美元需求,远超其最近季度467亿美元的收入;阿里云亦表示未来十年数据中心能耗将提升10倍,对应年化CapEx增长近30% [24][25] - 模型竞争远未停止,SOTA模型更新周期从2023、2024年的半年缩短至2025年的不足一个月,头部实验室为追求能力提升和探索新范式将持续投入算力,训练投入的ROI虽可能下降,但只要边际进步持续且无参与者愿意落后,需求就难以用传统商业逻辑衡量 [26][27] - 推理侧算力需求前景乐观,AI应用落地已被初步验证,随着Agent工具使用能力增强和多模态应用爆发,需求将增长;尽管芯片进步带来成本下降,但推理成本因用户倾向使用最新模型及Reasoning等功能消耗更多Token而被抵消,导致市场未明显感知成本下降 [30][32] 关键问题3:LLM时代的“暗光纤”指标出现了吗? - 当前市场找不到闲置的GPU,以AWS Spot Instance价格衡量的GPU空闲率在10月份约为5%,表明算力供应仍然紧张,与互联网泡沫时期97%光纤闲置的“暗光纤”现象有本质区别 [37][38] - 更准确的泡沫观察指标应是巨额CapEx投入后所创造的增量收入是否合理,而非硬件是否闲置;若出现问题,代表性企业可能出现万亿级别债务违约,而当前生态复杂度远高于1999年 [39] 关键问题4:AI能增长到什么程度? - AI商业化预期核心在于用户渗透率和单用户Token使用量的双重指数增长:美国AI渗透率约40%,中国不足20%,全球其他地区仅5-10%,存在巨大提升空间;同时,Deep Research、Agent等模式使单次查询Token使用量激增,有用户非编程类支出在过去6个月增长约20倍 [43][44] - AI产品商业模式主要有订阅制、按量收费及广告/电商:订阅制面临提价困难,按量收费的逻辑受“AI使工作贬值”挑战,广告和电商则存在创造增量与抢夺存量的争论,但ChatGPT等平台query量增长及精准化潜力可能激发增量市场 [45][46][48][49][50] - AI对企业端的降本增效作用显著,如美国失业人数同比增加65%,企业缩减招聘,以及阿里云AI相关业务同比增长达100%,远高于传统云服务10%的增速,表明B端价值释放是支撑CapEx的重要基础 [41][42] 关键问题5:AI进步的“黑天鹅”是什么? - AI发展的潜在黑天鹅是出现全新模型机制,以远低于Transformer的成本实现更优效果,从而颠覆现有技术体系;但只要Transformer加强化学习的主线能持续演进,AI就难以被称为泡沫 [51][52] - 对当前技术路径能否抵达AGI存在分歧,有观点认为其面临类似自动驾驶的瓶颈,需依赖大量数据标注;而Sam Altman等则基于未来1-2年模型能力质变(如Online learning)的预期进行决策,若此乐观预期成立,则泡沫更难发生 [52][53][55] - 从资本市场角度看,英伟达P/S倍数低于30倍,投资决策仍相对理性,泡沫更多可能出现在技术被大众广泛接受且叠加降息环境的后期,例如OpenAI上市前后 [57]
AI赋能资产配置(二十一):从Transformer到Agent,量化投资实战有何变化?
国信证券· 2025-11-04 21:36
核心观点 - Transformer与Agent的深度耦合构建了“建模精准化 + 决策自动化”的一体化量化投资体系,推动AI从“单一环节赋能”升级为“全流程提效”[1] - 代表性Transformer模型GrifFinNet通过多关系图建模与自适应门控融合,在股票收益预测准确性上显著优于LSTM、XGBoost等传统工具[1][2] - 分层多智能体框架模拟“宏观-行业-企业-组合-风控”的专业投资流程,通过角色模块化与流程自动化解决纯模型“信号落地难”问题[1][3] - 未来AI赋能量化投资将向精准化、自动化、稳健化进阶,Transformer与Agent的协同优化是核心方向[1][4] Transformer:量化投资的高效建模工具 - Transformer架构凭借自注意力机制与长序列建模能力,突破了传统模型(如CAPM、GARCH、LSTM)在处理非线性关系、时序动态及多源数据融合上的局限[2][12] - 传统统计模型(如CAPM、三因子/五因子模型)基于线性假设和有效市场假说,难以捕捉金融系统中的非线性关系和动态行为[12] - 机器学习算法(如SVM、随机森林、XGBoost)能处理高维特征和非线性关系,但在建模时序依赖性方面存在不足[13] - RNN、LSTM、GNN等深度学习模型推动了时序依赖性建模,但普遍存在“时空分离建模”问题,未能实现结构依赖与时序动态的深度融合[13] - GrifFinNet模型创新性地将多关系图建模与Transformer时序编码相结合,通过构建行业归属与机构共持两类关系图、设计自适应门控融合模块、采用紧密时空集成架构,提升了对市场内部复杂依赖性的建模能力[14] Agent:量化投资的全流程智能决策体 - Agent系统构建了“宏观筛选—企业分析—组合优化—风险控制”的分层架构,以解决传统量化投资中单一技术孤立应用、数据融合难、决策层级模糊等问题[3][15][16] - 顶层宏观智能体扮演首席经济学家角色,分析宏观经济和行业信号,筛选高潜力行业[3][17] - 分析层包含四个专业化股票评分智能体:基本面智能体评估企业财务健康度、技术面智能体捕捉价格时序规律、新闻智能体提取市场情绪、研报智能体整合机构观点,解决了不同频率数据的多模态融合问题[3][17] - 配置层的组合智能体通过强化学习(如PPO算法)动态分配各分析层智能体的权重,聚合异质观点以生成综合评分并构建投资组合[3][17][26] - 防护层的风险控制智能体实时监控组合波动率,根据市场波动率动态调整整体投资组合风险敞口,有效降低最大回撤[3][17][27] - 该分层架构模拟了专业投资机构的决策流程,支持人机协作,提升了策略的可解释性、抗波动能力与合规适配性[3][17] Transformer与Agent的深度耦合应用 - 耦合体系通过“功能封装 + 流程补全”实现协同:将Transformer嵌入Agent分析层以强化特征提取(如新闻智能体用LLM提取情绪、技术面智能体捕捉价格时序规律)[4][28] - 借助Agent的流程自动化(如组合优化、仓位控制)解决Transformer信号落地的难题,打通从“建模→落地”的最后一公里[4][28][29] - 以Agent的自主交互能力(如实时数据采集、动态权重调整)弥补Transformer静态建模的缺陷,使策略能实时适配市场变化,提升稳健性与泛化能力[4][29] - 在“沪深300成分股组合构建与动态调仓”的实操中,耦合体系实现了从数据预处理到实盘交易的无缝衔接,构建了“预测精准、决策高效、风控稳健”的智能量化体系[29][32] 未来展望 - 技术层面,Transformer将进一步优化多关系建模与长序列处理能力,结合更丰富的市场关联数据(如高频交易数据、跨市场联动信息)以提升信号捕捉的颗粒度与时效性[33][35] - Agent系统将强化多智能体交互协同与动态适配能力,深化人机协作模式(如人类专家与AI智能体的协同决策),同时在合规审计与风险控制模块形成更成熟的解决方案[33][35] - 二者的深度耦合将持续构建更适配复杂金融市场环境的智能量化生态,展现出广阔的应用前景[33][35]
马斯克:5-6 年后手机大变样!科创人工智能ETF华夏(589010) 午后弱势整理,市场情绪趋于谨慎
每日经济新闻· 2025-11-04 14:43
科创人工智能ETF市场表现 - 截至13:52,科创人工智能ETF报1.386元,跌幅2.39%,全天维持震荡下行格局,分时均线呈持续压制态势 [1] - 开盘价1.418元,最高1.42元,最低触及1.386元,逼近日内低位 [1] - 成分股方面,仅1只上涨、29只下跌,奥比中光、星环科技、凌云光等跌幅居前,最大跌幅超7% [1] - 近五日资金净流入较前期显著收窄,11月3日流入约1271万元,较此前六千万级水平明显降温 [1] AI行业技术发展前景 - 特斯拉CEO马斯克预测未来5-6年传统手机与App将消失,人类消费的大多数内容将由AI生成 [2] - 未来手机将作为AI推理的边缘节点,配备无线电模块,服务器端AI将与设备上的AI通信并实时生成用户想要的视频 [2] - 银河证券指出Transformer架构带来三大结构性红利:研发侧规模效应成立、部署侧边际成本递减、数据侧出现飞轮效应 [3] - Transformer作为通用引擎将持续吞噬剩余模态孤岛,为Agent时代提供"一个模型、任意任务"的底层支撑 [3] 科创人工智能ETF产品特征 - 科创人工智能ETF紧密跟踪上证科创板人工智能指数,覆盖全产业链优质企业 [3] - 该产品兼具高研发投入与政策红利支持,20%涨跌幅与中小盘弹性助力捕捉AI产业"奇点时刻" [3]
Meta裁员、OpenAI重组:万字复盘谷歌起笔的AI史诗,如何被「群雄」改写剧本?
机器之心· 2025-11-02 09:37
AI行业格局转变 - AI行业正从“无限淘金热”转向残酷的“阵地战”,资本开始重新评估价值,巨头们审视成本与效率 [1] - Meta FAIR部门遭裁员、OpenAI进行资本重组、AWS大裁员等一系列动荡表明行业进入新阶段 [1] 谷歌的AI基因与早期探索 - 人工智能是谷歌从诞生之初的核心理念,受创始人Larry Page父亲(早期机器学习教授)的影响 [5][9] - 2000年Larry Page断言人工智能将是谷歌的终极版本,终极搜索引擎就是人工智能 [9] - 谷歌起家的PageRank算法运用统计方法排序网页,带有早期AI思想印记 [10] - 2000年末工程师提出“压缩即理解”理论,探索语言模型和机器理解,这是现代LLM思想的早期体现 [12] - 研究成果直接应用于谷歌搜索的拼写纠错功能,并开发了消耗数据中心整体资源15%的语言模型PHIL [14][16] - PHIL在2003年被用于快速实现AdSense系统,为谷歌带来数十亿美元新收入 [15] 深度学习革命与谷歌的拥抱 - 2007年Geoff Hinton将深度学习火种带入谷歌,当时神经网络正被学术界边缘化 [20] - 谷歌的统计方法本身是对僵化专家系统的反叛,为结合深度学习奠定基础 [21] - 2011年吴恩达、Jeff Dean等发起Google Brain项目,目标构建大规模深度学习模型 [27] - Jeff Dean主导开发DistBelief分布式计算系统,采用有争议的异步更新参数方式但被证明高效 [28][29] - Google Brain的“猫论文”实验使用16000个CPU核心训练,神经网络自主学会识别猫脸 [30] - “猫论文”证明无监督学习能力,催生YouTube算法推荐时代,驱动数百亿乃至数千亿美元产业价值 [32][33][34] 关键突破与硬件变革 - 2012年AlexNet在ImageNet竞赛中将错误率从25%以上降至15.3%,提升超过40% [35][37] - AlexNet创造性使用NVIDIA GPU进行并行训练,确立GPU作为AI计算核心硬件的地位 [39] - 谷歌因应算力瓶颈,自研专门用于神经网络计算的TPU芯片,15个月内完成设计到部署 [62][63] - TPU针对矩阵运算优化并采用低精度计算,为谷歌提供成本优势和战略自主权 [63] 人才争夺与实验室建立 - 谷歌以约4400万美元收购AlexNet核心团队DNN Research,被认为是史上最划算交易之一 [41][42] - 2013年扎克伯格力邀Yann LeCun建立FAIR实验室,采用开放研究模式 [43][45][47] - FAIR为Meta提供核心技术、开源工具PyTorch以及Llama系列开源模型 [48] - 2014年谷歌以约5.5亿至6.5亿美元收购DeepMind,但其后与Google Brain存在内耗 [56][57] - DeepMind在AlphaGo项目中击败李世石,并将谷歌数据中心冷却能耗降低40% [58] OpenAI的崛起与转型 - 2015年因马斯克对谷歌垄断的担忧,联合Sam Altman创立OpenAI,获10亿美元初始承诺 [64][65][68] - Ilya Sutskever被使命吸引离开谷歌加入OpenAI,尽管Jeff Dean提供双倍薪酬反聘 [66] - 2018年OpenAI因资金压力重组,设立利润上限子公司并获得微软10亿美元投资 [86][87] - OpenAI转型开发GPT系列模型,GPT-3展现出惊人能力,GitHub Copilot成为首个大规模落地产品 [90][91] - 2021年Dario Amodei因安全与商业化分歧带领核心成员出走,创立Anthropic [92][95] Transformer架构与新时代 - 2017年谷歌发表《Attention Is All You Need》论文,提出Transformer架构 [74][76] - Transformer解决RNN/LSTM序列处理难题,具备高度并行化优势 [76] - 架构展现出“更多数据+更大模型+更多算力≈更好智能”的可扩展性 [80][81] - 谷歌允许论文公开发表,将“钥匙”交给全世界,包括潜在竞争对手 [84] - 论文八位作者后来相继离开谷歌 [84] ChatGPT冲击与谷歌反击 - 2022年11月ChatGPT发布,一周用户破百万,两个月破亿,成为史上增长最快消费应用 [97] - ChatGPT成功震醒谷歌,Sundar Pichai拉响“Code Red”红色警报 [99] - 微软迅速追加100亿美元投资OpenAI,并发布新版Bing搜索引擎直指谷歌核心业务 [99] - 谷歌仓促推出Bard但出现事实错误,促使公司进行大刀阔斧改革 [102][103] - 2023年谷歌合并Google Brain和DeepMind,组建统一Google DeepMind部门由Demis Hassabis领导 [105][106] - 谷歌All in Gemini项目,集中精英力量开发统一多模态旗舰模型系列 [105][106] - Gemini系列快速迭代,Gemini 2.5 Pro成为顶尖模型,并整合进搜索等产品 [107] - Google DeepMind在AI for science领域突破,AlphaFold 2解决蛋白质折叠问题,团队获2024年诺贝尔化学奖 [107][108] 当前竞争格局 - 谷歌一度受大公司体制束缚将王牌拱手让人,OpenAI成为最具实力玩家之一 [109] - Meta曾稳坐开源王座,如今在军备竞赛与成本效益平衡中艰难变革 [109] - 中国AI力量异军突起,DeepSeek、Qwen、Kimi等奋力追赶 [109] - 行业没有永远王者,巨头霸权可能被自身问题拖垮,后起之秀威胁迫近 [110]