Transformer架构
搜索文档
LSTM之父率队造出PoPE:终结RoPE泛化难题,实现Transformer的极坐标进化
机器之心· 2026-01-02 09:55
文章核心观点 - 由Jürgen Schmidhuber团队提出的新型位置嵌入方法PoPE,通过解耦内容(what)与位置(where)信息,解决了当前主流方法RoPE中两者纠缠的问题,从而在多项任务中实现了更优的模型性能[1][9] RoPE的问题分析 - RoPE是Llama 3、DeepSeek-v3、Gemma 3和Qwen3等前沿模型的首选位置编码方法,它通过旋转键和查询的二维分量来编码相对位置信息[5] - 在极坐标表示下,RoPE的注意力分数公式显示,键和查询都混淆了特征存在与否的信息(what)和相对位置信息(where),这种纠缠被假设会损害模型性能[8][9] PoPE解决方案 - PoPE将键和查询转换为d元素复向量,其幅值通过softplus函数确保非负,相位则仅取决于位置,从而实现了内容与位置的解耦[12][13] - PoPE的注意力分数计算消除了RoPE中导致键和查询影响相位的交互项,并可引入一个可学习的偏置项来调整最佳相对偏移[13] - 该方案通过定制的Triton内核实现,相比标准Flash Attention仅需额外一次乘法,虽然当前通用变体内存开销较大,但可通过优化降低[14] 模型性能表现 - **间接索引任务**:RoPE平均准确率仅为11.16%,而PoPE达到94.82%,显示出PoPE在分离内容和位置信息上的显著优势[18][19] - **音乐与基因组序列建模**:在JSB和MAESTRO音乐数据集上,PoPE的负对数似然(NLL)均低于RoPE;在人类参考基因组数据集上,PoPE的NLL(4.152)也显著低于RoPE基线(4.217)[20][22][23] - **语言建模**:在OpenWebText数据集上,124M、253M和774M三种模型规模的测试中,PoPE的困惑度均始终低于RoPE[25][26] - **下游零样本任务**:在LAMBADA、Blimp、CBT、HellaSwag、PIQA和ARC-E六项任务中,PoPE在所有模型规模下的平均准确率均高于RoPE[27][28] - **长度外推能力**:在1024个token上训练,于长达10240个token的序列上评估时,RoPE性能显著下降,而PoPE显示出强大的开箱即用外推能力,优于专门的基线模型YaRN,且其外推性能随模型规模增加保持稳定,而RoPE则恶化[29][31][32]
有300亿美元也未必“再造GPT-4”?NUS尤洋最新长文:拆穿AI增长瓶颈的真相
量子位· 2025-12-31 11:37
文章核心观点 - 当前人工智能行业面临的核心瓶颈并非算力增长停滞,而是现有技术范式(以Transformer架构为核心)对持续增长的算力的吸收和转化效率正在下降,即“算力增长与智能增长之间的映射关系开始松动”[2][22] - 智能的本质可被工程化地定义为“对未来状态进行预测,并为预测结果承担实际后果的能力”,这解释了Next-Token Prediction的成功,也揭示了当前许多模型在真实世界应用中的短板[8][10] - 未来智能增长的关键在于寻找“扩展性更强的架构或Loss函数”,以在极端算力投入下(如300亿美元预算)稳定地将新增算力转化为可兑现的能力增量,而非仅仅追求效率优化(如更高的吞吐量)[23][26] 智能的本质与评估 - 智能的核心能力被定义为对未来状态的预测及承担后果的能力,这为评估智能提供了一个工程化、可验证的标准[8] - 这一视角解释了Next-Token Prediction能成为“智能发动机”的原因,也揭示了在封闭评测中表现优异的系统在真实不确定环境中暴露短板的问题[10] - 将智能凝聚为“预测”是为了划定一个工程上可对齐算力投入的核心能力维度,但规划、因果建模等能力是否能完全还原为预测仍是开放议题[10] 当前技术范式的成功与局限 - 过去十年大模型的智能跃迁依赖于三件事同时发生:GPU提供指数级增长的并行算力、Transformer架构能充分“吃下”这些算力、Next-Token Prediction提供了无限且统一的学习信号[15] - Transformer的成功不仅是算法胜利,更是模型架构与硬件体系(英伟达GPU)高度匹配的系统性结果,它是一台“伪装成神经网络的并行计算机”[6][16] - 该范式的有效性部分受益于语言任务本身高度符号化、序列化,且评测体系与训练目标高度一致的特性[17] - 在此范式下,从GPT-1到ChatGPT,算力增长、模型规模扩大与能力提升之间形成了相对稳定的正反馈链路[18][19] 智能增长的瓶颈所在 - 判断智能瓶颈的具体标准是:当一次训练的FLOPS从10^n变成10^{n+3}(即增长1000倍)时,是否还能稳定获得显著更强的模型[20] - 瓶颈的本质是“算力增长与智能增长之间的映射关系开始松动”,即现有范式对新增算力的吸收效率下降,而非算力红利消失[2][22] - FLOPS被视为最底层、最难被包装的算力尺度,比Token数、参数量等指标更能反映本质[21] - 真正的难点在于缺乏一种“扩展性更强的架构或Loss函数”,能把新增算力稳定地转化为能力增量[23] 对行业主流讨论的批判性视角 - 预训练、监督微调(SFT)、强化学习(RL)三者本质都是在计算梯度、更新参数,可被统一视为不同的“算力使用策略”[11][12] - 当前模型的主要智能来源是预训练阶段,根本原因是其消耗了最多的能源与计算[15] - 行业应关注“在算力持续投入的前提下,是否还能稳定地换取能力增长”这一更朴素的问题,而非陷入方法论之争[15] - Mamba等新架构提升了吞吐量,但解决的是“同等智能更便宜”,不自动等价于“同等成本更聪明”[6][23] 未来发展的潜在方向 - 未来AI基础设施的核心目标应是提升“并行计算体系在软硬件层面的整体扩展性”,而不仅仅是单点芯片性能,需维持或提升计算开销与通信开销的比值[24][25] - 探索方向包括:回归高精度计算(如FP32/FP64)、抛弃Adam优化器、采用更高阶优化器、探索更可扩展的架构或Loss函数、进行更多epoch与更深度的超参数探索[6][25] - 预训练所能承载的智能增长空间可能还远未走到尽头,关键在于找到在极端算力条件下持续变强的能力[26] - 只要还能找到更高效组织计算的方式,智能的上限就远未到来[27]
豆包日活破亿,接下来应该就要“搞钱”了
搜狐财经· 2025-12-28 03:41
豆包用户规模与成本结构 - 豆包日均活跃用户数已突破1亿大关,成为日活最快破亿的国产AI产品 [1] - 豆包的市场推广费用是字节跳动所有日活破亿产品中花费最低的 [1] - 截至今年12月,豆包大模型日均调用量已突破50万亿Tokens,较去年同期增长超过10倍 [3] - 以对外API服务方式计算,豆包每日仅模型调用成本约250万元 [6] - 通过混合专家架构、稀疏激活及推理优化技术,豆包App的实际运营成本大概率在200万元/天 [6] - 豆包主力模型综合单价约为1元/百万Tokens [5] AI行业商业模式与商业化挑战 - AI技术的边际成本与传统互联网产品相反,用户规模增加会带来更多推理需求,而非摊薄成本 [8] - AI行业当前是“烧钱换技术”,核心目标是追求通用人工智能 [8] - 投资机构对AI行业的“烧钱”意愿正在下降,行业叙事从“仰望星空”转向“脚踏实地” [10] - 当一级市场融资变谨慎,通过IPO从二级市场获得资金成为AI独角兽留在牌桌上的方式 [10] - 主流AI产品变现方式为付费订阅,但以ChatGPT为例,其付费渗透率也仅有5% [10] - 在付费意愿更低的国内市场,付费订阅模式可能面临更大挑战 [12] 豆包未来商业化路径推测 - 实现亿级日活后,豆包的下一步是商业化 [3] - 豆包未来大概率会通过广告方式完成商业化,例如在用户寻求建议时自然地推荐相关品牌 [12] - 这种广告方式被认为既隐蔽又高效 [12]
当姚顺雨们开始掌舵科技巨轮
钛媒体APP· 2025-12-25 13:12
文章核心观点 - AI行业发生底层范式转移 导致技术解释权与公司权力结构重构 经验丰富的资深工程师价值相对贬值 而深刻理解新范式的年轻技术领袖迅速崛起[3][4][8] - 科技公司为适应新时代 正在形成“年轻舰长负责技术探索 年长领航员负责资源整合与风险把控”的新型共生管理模式[30][31][36][37] 技术范式转移 - 2017年Transformer架构出现前 AI开发依赖精细人工规则与特征工程 经验价值高[4] - Transformer与GPT系列引爆生成式AI新时代 范式转变为依赖强大算力与海量数据 智能从混沌中涌现[4] - 新旧范式存在根本性思维差异:传统工程师思维强调节省算力与优化效率 新一代AI从业者则直觉倾向于增加参数与清洗数据[5][6] - 技术代差造成的认知隔离 如同火器时代取代冷兵器 最优秀的弓箭手教官无法指导使用机枪的新兵[7] 公司权力结构重构 - Meta引入Scale AI创始人Alexandr Wang(28岁)兼任首席AI官 其信奉工程实用主义 认为经RLHF清洗的高质量数据是AI时代不可复制的核心壁垒[10][11] - 腾讯为刚毕业的博士姚顺雨提供亿级薪酬并授予首席AI科学家头衔 因其在普林斯顿与OpenAI期间是“思维树”和“ReAct”框架核心研究者 掌握通往AGI的精确地图与关键暗知识[2][12][13] - 小米将“人车家”大模型指挥权交给95后罗福莉 因其在DeepSeek-V2模型中历练出的“小参数、高性能”模型直觉 能指挥习惯硬件堆料的老工程师 确立“算法指引硬件”的新战略[2][14][17][18] - 三位年轻领袖分别占据“数据基建”、“核心算法”、“终端应用”三个关键环节 共同构建了新技术范式下的权力闭环[9][19] 管理冲突与文化碰撞 - 技术断层导致管理层年轻化 传统科层制管理结构经受考验 老中层管理者面临认知失调[20] - 沟通逻辑冲突:传统管理者关注项目ROI与逻辑闭环 年轻领导者则认为大模型逻辑是涌现的 无法预设[21] - 技术理解冲突:传统工程师要求模型“可解释性” 年轻领导者则接受大模型是数千亿参数压缩产生的概率分布黑盒[22] - 文化冲突:年轻一代信奉极客文化与GitHub式开源协作 对繁琐的汇报流程与层级文化嗤之以鼻 导致与传统企业文化的冲撞[23][24][25][26] 未来共生模式 - 纯粹由年轻技术领袖主导存在风险 可能缺乏对用户隐私、社会安全底线及上市公司财报压力的敬畏与处理能力[29][30] - 最健康的模式是“年轻舰长 + 年长领航员”:年轻技术领袖定义技术路线与算法架构 资深管理者转型为资源整合者与保护者 负责搞定监管、预算与跨部门协调[31][32][33][34][35] - 资深管理者利用几十年积累的商业智慧与人脉 为年轻大脑构建纯粹、不受干扰的创新环境[36] - 这不是简单的年龄更替 而是认知结构的更迭 年轻领袖的成功源于其知识结构天然适配AI新时代[39]
CMU教授万字反思:西方式AGI永远到不了
量子位· 2025-12-20 15:38
文章核心观点 - 卡内基梅隆大学教授Tim Dettmers认为,通用人工智能(AGI)是一个违背物理规律的幻想工程,其核心障碍在于计算的物理枷锁,而非哲学或算法问题 [1][4] - 硬件性能的瓶颈、资源成本的指数级增长以及现实世界数据收集的困难,共同决定了AGI无法实现 [1][12][18] - AI的未来在于物理约束内的渐进式改进、经济扩散和实际应用,而非追求超越人类的超级智能 [20] 硬件与物理限制 - 所有智能都需扎根于物理现实,依赖芯片、计算机等硬件实现,而硬件必然受到物理规律的限制 [2][3][4] - 信息移动成本是核心物理限制之一,其成本随距离呈平方级上升,这体现在芯片缓存设计中(如L2、L3缓存比L1大但速度更慢)[5] - 现代芯片设计面临内存与计算单元的权衡,晶体管尺寸缩小降低了计算成本,但内存成本越来越高,导致芯片上大部分空间用于内存,计算单元占比微乎其微 [7] - 当前主流的Transformer架构本质上是硬件信息处理效率的物理优化,且已接近物理最优 [8] 资源投入与收益递减 - 系统性能的线性进步需要指数级增长的资源投入,这在物理和理论层面都存在限制 [9] - 物理学的发展是例证:过去个人可取得理论突破,现在却很难;实验物理如耗资数十亿的大型强子对撞机也未能解开暗能量、暗物质谜团 [10][11] - AI领域同理,试图通过堆叠资源实现AGI的通用能力,其成本迟早会超出实际承受范围 [12] - 过去GPU的指数级进步能抵消模型规模扩张的资源消耗,但现在GPU进步停滞,想获得线性性能提升需投入指数级成本,这在物理上很快将不可行 [16] GPU算力增长已达瓶颈 - GPU的性价比在2018年已达到峰值,之后的改进(如16位精度、张量核心、HBM内存)均为一次性功能,潜力即将耗尽 [14] - 行业寄希望于机架级优化(如更高效调度AI键值缓存),但此类优化设计思路单一,本质上只有一种最优设计方式,各公司基础设施差距很小 [14] - 机架或数据中心级别的优化优势预计在2026-2027年就会耗尽,GPU的算力增长线已快走到尽头 [14][15] AGI与超级智能的不可行性 - AGI要求能处理物理世界的复杂任务,但物理世界数据的收集成本极高(例如训练工厂机器人应对零件磨损、天气变化)[18] - 超级智能假设AI能自我迭代、无限变强,但变聪明需要资源,性能每提升1%,所需的资金和算力可能增加10倍,而AI无法凭空创造资源,因此无法实现无限增强 [19] - 结论是AGI不会实现,超级智能亦是幻想 [17][19] AI的未来发展路径 - AI的未来是在物理约束内进行渐进式改进,通过经济扩散和实际应用创造价值 [20] - 具体方向包括开发更节省算力的算法、推广开源AI模型以扩大使用范围,以及将AI应用于医疗、农业、制造业等领域以提升效率 [21] - 美国科技巨头倾向于“赢者通吃”,投入巨资追求不切实际的AGI [21] - 中国的发展路径更聚焦于AI的落地实用,关注其提升生产力的能力,并通过补贴推动AI融入各行各业,被认为更贴合现实 [22]
全网破防,AI“手指难题”翻车逼疯人类,6根手指,暴露Transformer致命缺陷
36氪· 2025-12-15 20:39
文章核心观点 - 当前以Transformer和扩散模型为代表的AI模型在理解和生成精确的离散结构(如手指数目)上存在根本性缺陷,这暴露了其在视觉推理和几何理解方面的重大瓶颈 [32][36][50] AI模型在“手指难题”中的表现 - 当被要求对一张有六根手指的图片进行数字标注时,Nano Banana Pro模型只标出了1至5,直接略过了一根手指 [2] - 即使提示中明确说明图里有六根手指,GPT-5.2依然斩钉截铁地回答“五根”,其理由是“人类有五根手指,所以图里没有五根手指就是错的” [6] - 无论网友将手指画得多么奇形怪状,AI模型(如Nano Banana Pro)始终无法数出6根手指,坚持回答“5根” [8][9] - 通过一些变通指令(如将手绘数字改为电子版,或明确指示从小指到大拇指依次放数字),网友最终能让模型成功标注 [15][18] 技术缺陷的根本原因 - AI视觉系统的工作本质是将复杂场景简化为一组可识别模式,当遇到六指手这种包含罕见特征的图像时,系统倾向于将其强行纳入已知的“五指”模式 [32][34] - 模型从海量训练数据中学到了“人手=五指”的强关联,当情况偏离时,模型会视为异常并自动“纠错”,而非理解新事实 [32] - 扩散模型擅长捕捉整体分布和纹理风格,但在精确控制局部、离散、高对称性的结构(如正确的手指)时显得力不从心 [43] - 现有“端到端”的模型架构直接从文本提示映射到像素,中间缺乏明确的符号化结构表示层,导致“长什么样”和“结构是什么”冲突时系统失效 [45] Transformer架构的局限性 - Transformer架构的并行计算设计存在代价,其单次前向传递难以有效追踪状态信息,系统不擅长执行需要多步骤逻辑推理的任务 [37] - 对于手部这种数量固定、结构复杂、局部高度相关的对象,其多局部一致性、跨区域约束等特性恰是Transformer最不擅长的领域 [39] - Transformer将世界打平为token序列,缺乏对象概念和显式结构约束,这是其强大Token-to-token预测能力带来的致命短板 [46][47] 潜在的解决方向与行业启示 - 解决瓶颈可能需要采用混合建模,例如将擅长纹理的扩散模型与显式结构模型(如3D网格)相结合 [45] - 另一种思路是在模型架构中强化对特定区域(如手部)的局部注意力机制,或在训练/推理过程中引入几何约束损失函数 [45] - 视觉数据的复杂性远超文本,可能需要数十个数量级更多的计算资源才能真正处理视觉世界的全部细微差别 [47] - 当前AI在语言、知识、编码等领域已远超常人,但在视觉推理、长期学习、因果关系理解上仍然不足 [48] - “手指难题”提醒行业,即使是最先进的AI,也仍在学习如何看待世界的基本细节,对其能力需有更清醒的认识 [50]
AI文章仿写工具哪个好?深度评测帮你选
搜狐财经· 2025-12-15 00:14
行业技术发展现状 - AI生成文章仿写的本质是利用人工智能技术对已有文本进行语义理解、结构分析和语言重组以生成新文本[2] - 文本生成技术已从早期的模板填充和简单替换发展到深度语义理解和创造性仿写阶段[2] - 现代大型语言模型在文本仿写任务上能在保留原文事实性信息的同时实现高达70%以上的词汇和句式变化[2] 评测工具综合排名 - 第一名:优采云AI内容工厂,综合评分9.8/10分[4] - 第二名:智写工坊,综合评分8.5/10分[7] - 第三名:迅采通,综合评分7.9/10分[8] - 第四名:易稿精灵,综合评分7.0/10分[11] 优采云AI内容工厂核心优势 - 定位为集文章采集、智能过滤、深度原创/改写、多维度优化、全自动发布于一体的内容生产流水线[4] - 核心优势在于无与伦比的自动化与集成度,可实现7x24小时云端自动运行[4] - 支持从百度、搜狗、头条等六大搜索引擎入口进行全网采集,每小时采集量可达300-500篇[4] - 提供“智能AI版”和“深度改写版”两种改写模式,其中深度改写可使原文相似度低至25%[6] - 具备细致的SEO支持功能,包括自定义标题格式、关键词与描述设置、自动内链等[6] - 拥有多媒体处理能力,支持图片本地化/云存储/AI生成配图,并具备文生视频功能[6] 智写工坊产品特点 - 在创意写作和深度仿写方面表现突出,特别擅长处理文学性较强或需要特定风格模仿的文本[7] - 在诗歌仿写、小说风格延续、营销文案语气模仿等方面生成文本的流畅度和风格一致性较高[7] - 主要专注于“写”这一环节,缺乏内置的大规模内容采集和自动化发布能力[7] 迅采通产品特点 - 核心优势在于强大的网络信息抓取和聚合能力,配备高效的爬虫引擎[8] - 能够根据用户设定规则从指定来源快速抓取最新内容,数据清洗和结构化提取能力较强[8] - 在仿写方面提供基础的“伪原创”重写功能,主要通过同义词替换、句式调整等方式降低文本重复率[10] 易稿精灵产品特点 - 是一款轻量级、入门门槛较低的AI仿写工具,界面简洁,操作直观[11] - 主打“一键生成”和“批量处理”,适合需要快速生产大量初稿内容的场景[11] - 算法相对简单,生成内容的随机性较大,缺乏高级的过滤、优化和定制选项[11] 市场定位与总结 - 优采云AI内容工厂服务于企业级用户和重度内容运营者,解决内容运营全流程难题[12] - 智写工坊、迅采通、易稿精灵则分别在创意深度、采集能力和简易快捷上各有侧重[12] - 选择能够融入并优化完整工作流的平台比选择功能孤立的产品更为重要[12]
从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?
海外独角兽· 2025-12-03 20:05
文章核心观点 - 大语言模型在语言理解和生成方面展现出强大能力,但仅依赖语言不足以支撑真正的智能,构建能够理解和操作世界的空间智能与世界模型成为下一代人工智能发展的关键方向[2][4] - 空间智能被定义为在三维空间中进行推理、理解、移动和交互的深层能力,与语言智能互补,是通往通用人工智能不可或缺的拼图[4] - 语言是对三维世界的“有损压缩”,而视觉和空间感知是更接近“无损”的表征方式,让AI理解像素和三维空间中的物理规律难度高于处理符号化语言[10][11] - World Labs公司推出的Marble模型是全球首个高保真度3D世界生成模型,旨在突破模型“只懂文本”的限制,具备在三维环境中定位、推理、模拟、生成和执行任务的能力[15][17] 空间智能的必要性与理论基础 - 从生物演化角度看,大自然花费5.4亿年优化动物的视觉感知与空间行动能力,而人类语言形成历史仅约50万年,忽视这5.4亿年的进化积淀仅通过语言构建通用人工智能是不合理的[7][8] - 空间智能是人类进行高级科学创造不可或缺的思维工具,DNA双螺旋结构的发现就依赖于高强度空间推理,通过在三维空间中对分子结构进行几何构建和逻辑验证而完成[12][13] - 根据多元智能理论,人类智能是多维度的,至少具备八种相互独立的智能,空间智能与语言智能并非对立而是互补关系[4][5] Marble模型的技术特点 - 模型采用多模态输入方式,用户可输入文本描述、单张图像或一组图像,并能基于照片在虚拟空间中重构3D模型[20] - 具备交互式编辑功能,用户可对生成场景下达具体修改指令,模型能根据新约束条件重新生成并调整整个3D世界,形成“生成-反馈-修改”的闭环[20][21] - 选择Gaussian Splats作为3D世界的基础原子单元,通过大量3D高斯体表示和渲染场景,实现了在移动设备上30fps甚至60fps的实时渲染能力[24][25] - 模型架构基于Transformer,其本质是集合模型而非序列模型,置换等变的特性使其天然适合处理3D空间数据[28][29] Marble模型的应用场景 - 在创意与影视领域提供精确的相机放置控制,能极大降低特效制作门槛和成本,成为电影工业强大的生产力工具[21][31] - 室内设计成为典型涌现用例,用户通过手机拍摄厨房照片即可在虚拟空间重构3D结构并随意尝试各种设计方案,无需掌握复杂CAD软件[31][32] - 在机器人领域可作为强大模拟器,生成高保真合成数据填补真实数据与互联网视频之间的鸿沟,为具身智能体提供零成本虚拟训练环境[34][35] 技术发展趋势与挑战 - 当前世界模型面临的最大挑战是视觉真实与物理真实的差距,生成看起来合理的3D场景不等于模型理解物理定律[27] - 公司正在探索将传统物理引擎与生成式模型结合的混合路径,包括通过物理引擎生成模拟数据训练模型,以及给Splats赋予物理属性等方式[27][28] - 在算力被巨头垄断的时代,学术界应专注于探索短期内看似不可行但具备长远颠覆性的研究方向,如打破硬件彩票现象,寻找替代矩阵乘法的计算原语[36][37][38]
AI赋能资产配置(二十九):AI预测股价指南:以TrendIQ为例
国信证券· 2025-12-03 19:12
核心观点 - 报告以TrendIQ开源平台为例,探讨了AI大模型在股价预测领域的应用,展示了从传统LSTM模型到结合Transformer等新架构的迭代过程,并详细解析了本地部署与线上平台两种实现路径,旨在为投资者呈现AI技术在股价预测上的能力圈与未来进化方向[3][4] 一、深度学习与LLM在股价预测中的迭代演绎 - 过往学界与工业界倾向于使用LSTM作为股价预测的基础模型,因其能处理非线性问题并适应时间序列特性[5] - LSTM模型存在局限性:模态单一性,难以理解文本新闻等非结构化信息;解释性相对弱,被视为“黑盒”模型;泛化鲁棒性弱,难以跨市场或跨行业迁移[6][7] - Transformer架构为金融时序预测提供了新出路,其优势在于全局上下文感知、零样本与少样本学习能力以及思维链推理,能提供更好的可解释性[8][10] 二、“AI股价预言家”如何炼成:本地化部署与代码解读 - TrendIQ项目的运行框架由四个Python程序文件构成,形成“离线训练+诊断+在线服务”的闭环[12] - **训练阶段** (`train_multiple.py` 和 `quick_train.py`):使用`yfinance`收集历史股票数据,预处理后训练LSTM模型并保存,是链条的起点[12][14] - `quick_train.py`预设了五只热门股票(AAPL、GOOGL、MSFT、TSLA、AMZN)进行快速训练,耗时约10-15分钟[14][16] - `train_multiple.py`支持批量训练,列表扩展至十只股票(包括META、NVDA等),并允许用户自定义股票列表和日期范围[17] - **检查阶段** (`check_models.py`):验证训练生成的文件(CSV、.npy、.joblib、.h5)是否存在及完整,充当质量把关者[18][19] - **运行阶段** (`app.py`):基于Flask框架启动Web应用,用户输入股票代码后,加载预训练模型进行预测,并显示预测价格、图表和置信度[13][20] 三、轻量化VS易用性:本地部署与线上平台如何选择 - **本地部署TrendIQ**适合跟踪特定个股、注重安全性和速度的投资者,流程分为四步[21] 1. **软件包下载**:从GitHub获取开源数据包[21] 2. **安装依赖**:通过pip一次性安装Flask、TensorFlow、NumPy、Pandas、Scikit-learn、YFinance、Joblib等库[23] 3. **股票数据训练**:运行`python quick_train.py`为五只热门股票训练LSTM模型,耗时约10-15分钟[24] 4. **本地运行**:运行`python app.py`启动服务器,用户可通过浏览器访问`http://127.0.0.1:5000`进行预测[28] - **线上平台TrendIQ**适合追求易用性、对预测精度要求相对较低的投资者[32] 1. 通过Google账号或邮箱登录网页版[32] 2. 在Swing Trading(针对60分钟线及以上趋势)或Scalp Trading(针对五分钟及以内趋势)界面,上传K线截图进行预测[33][34] 3. 预测结果包括:多空趋势研判、具体的止盈止损位置以及AI给出的判断理由[36] - **本地版与线上版对比**:两者在数据输入、模型、预测功能和实际效果上存在差异[41] - **数据输入**:本地版使用股价序列(高、低、开、收、成交量);线上版使用不同级别的蜡烛图[41] - **模型**:本地版为LSTM;线上版为LSTM+LLM或LSTM+VAE[41] - **预测功能**:本地版提供目标价和置信区间;线上版提供多空建议、止盈止损线及判断理由[41] - **实际效果**:本地版对走势标准化程度高、成交量大的海外大票预测效果更好;线上版在多头排列上涨环境的主升阶段判定相对准确,但在震荡市胜率一般,且对顶部提示和大幅回撤后的“抄底”判断能力有限[41] 四、总结展望:“AI预言家”成色几何?未来如何再进化? - 模型结构持续迭代,Transformer架构与图神经网络正逐步取代LSTM,成为股价预测领域新的技术基准[39] - 未来进化方向在于多模态融合与“阅读市场”的能力,例如Time-VLM等框架尝试结合视觉Transformer分析K线图、LLM理解财经新闻以及数值模型分析价格序列[40] - 实时检索增强生成技术将赋能AI预言家,通过实时连接外部知识库获取最新动态,缓解市场非平稳性导致的模型过时问题[40]
Google的反击之路,AI巨头的竞争与分化
新财富· 2025-11-27 16:39
AI行业竞争格局与市场表现 - 资本市场对AI行业存在泡沫担忧但更害怕错过 对竞争格局的投票结果显示谷歌和博通在2025年表现更好 [4] - 截至2025年11月25日纳斯达克100指数累计上涨19.07% 谷歌和博通分别上涨70.49%和67.26% 英伟达上涨32.44% 微软、META、亚马逊涨幅均低于指数平均值 [5][7] - 谷歌股价上涨得益于Gemini 3发布 META下跌因Llama4产品不及预期及团队波动 [6] Gemini 3的技术突破 - Gemini 3 Pro在LMArena排行榜以1501分登顶 在"人类最后的考试"获37.5%分数 GPQA Diamond测试获91.9%高分展示博士级推理能力 [9] - 数学领域MathArena Apex测试得分23.4% 远超GPT-5.1的1% 多模态推理MMMU-Pro测试81% Video-MMMU测试87.6% [9] - 代码能力突出 可生成复杂交互页面并实现自我验证调试优化 LiveCodeBench Pro测试Elo评分达2439分 Vending-Bench 2测试净价值均值5478.16美元 [10] - 推出Antigravity开发平台 将AI编程从辅助工具转变为协作伙伴 实现跨界面操作和真正的AI agent [11] Google的技术演进与市场反击 - Google是Transformer架构发明者 但长期押注BERT等理解型模型 因与搜索广告业务更契合 [14][15] - OpenAI基于Transformer推出GPT系列 确立"生成式+大规模"战略 ChatGPT两个月获一亿用户促使Google发布红色警报 [16][17][18] - Gemini 3发布前市场份额从5-6%提升至14% 凭借Nano Banana表现两周内实现2300万用户增长 反超ChatGPT成App Store榜首 [18][19] 巨头生态与战略分化 - Google拥有多元C端入口 搜索占90%市场份额 具备从TPU芯片到终端应用的全栈自研生态 呈现厚积薄发之势 [21][23] - META因缺少云业务 AI投入变现路径单一 Llama4训练不及预期及中国开源模型影响导致战略受挫 进行团队大幅调整 [24][25] - 微软重点发力软件+云方向 优先推广OpenAI API 亚马逊侧重算力提供但缺乏核心壁垒 行业竞争从模型强度转向生态融合与商业价值 [25]