Qwen3 Max - 财报，业绩电话会，研报，新闻 - Reportify

Qwen3 Max

搜索文档

美国AI一骑绝尘，中国平均落后7个月，Epoch AI新报告出炉

36氪· 2026-01-08 15:53

中美AI能力差距量化分析 - 根据Epoch AI报告，中国AI模型的综合能力平均落后于美国7个月，最小差距为4个月，最大差距为14个月 [1] - 该差距基于综合能力指数衡量，该指数综合考虑了语言理解与生成、推理与问题分解能力、多任务泛化表现及专家校准 [4] - 差距在时间上呈现收敛趋势：2023年差距接近10-12个月，2024年收敛到6-8个月，2025年稳定在约7个月 [9] 中美AI发展路径与模式差异 - 美国前沿AI发展节奏密集且持续，从GPT-4到o1，再到GPT-5、Gemini 3 Pro，中间几乎没有长时间停滞 [6] - 美国AI能力跃迁不完全依赖参数规模，例如o1系列的核心在于推理路径设计、中间状态建模和训练目标重构 [7] - 中国AI模型呈现“跳跃式”追赶曲线，通过扩大参数规模、采用MoE架构等方式提升能力，但迭代间隔相对更长 [7][8] - 中国领先的大模型普遍具有开源特征，而美国处于前沿的模型如GPT-5、Gemini 3均为闭源 [10] 行业竞争格局与未来范式 - 7个月的差距表明中国大模型已完全进入全球第一竞争梯队，决定未来胜负的关键在于下一次范式跃迁 [14] - 下一代AI进化的核心能力可能围绕持续学习展开，即让AI无需重新训练即可自我学习与迭代进化 [16] - 行业前沿正探索AI推理与行动的深度耦合，实现自我反思、规划及智能体级的系统能力 [15]

阿里巴巴-W(9988.HK)：云收入延续加速增长且闪购减亏在轨

格隆汇· 2025-11-28 03:44

总体财务表现 - 2QFY26总收入为2,478亿元，同比增长4.8%，高于市场一致预期及华泰证券预测 [1] - 经调整EBITA为91亿元，同比下降77.6%，经调整EBITA利润率为3.7% [1] - 非GAAP归母净利润预测FY26/FY27/FY28分别调整为1,058/1,310/1,597亿元 [3] 中国电商集团业务 - 2QFY26收入同比增长15.5%至1,326亿元，CMR同比增长10.1% [2] - 中国电商集团调整后EBITA利润为105亿元，同比下降76.3% [2] - 若不考虑闪购投入影响，电商集团EBITA在2QFY26季度实现同比中个位数正增长，闪购投入影响估算约为367亿元 [2] - 管理层预计3QFY26电商CMR同比增速将有所放缓 [2] 闪购业务 - 10月以来闪购单均亏损较7-8月时已收窄一半，订单份额保持稳定且GMV份额有所提升 [2] - 闪购业务对用户活跃度及相关品类成交均有明显拉动，对CMR产生正向影响 [2] - 2QFY26为闪购业务阶段投入高点，预计3QFY26投入规模将环比显著收缩 [2] - 闪购业务的持续减亏或有望为公司的中短期利润额修复斜率提供支持 [1] 云与AI业务 - 阿里云2QFY26收入同比增长34.5%，延续提速趋势，其中外部收入同比增长29% [2][3] - AI相关收入连续9个季度实现三位数增长，AI收入占外部商业化收入的比例已超过20% [3] - 阿里云季度调整后EBITA利润率为9.0%，同比持平，环比改善0.2个百分点 [3] - 2QFY26公司AI相关资本开支为315亿元 [3] - 管理层表示客户对AI需求旺盛，阿里云的AI服务器上架进度滞后于客户订单增长速度 [3] AI战略与展望 - 公司持续投入全栈AI能力建设，AI与阿里生态的协同效应带来更大发展空间 [1] - 管理层致力于成为世界领先的全栈AI服务商，并凭借性能领先的模型打造面向C端用户的AI超级原生应用 [3] - 公司预计以千问APP为中心，与淘宝、高德、闪购和支付宝等业务进一步联通，强化ToC端AI流量入口竞争力 [1] - 在测试版千问APP中观察到用户留存率明显提升，管理层认为全面进入AI to C领域正当其时 [3]

全栈AI能力建设

全栈AI能力建设

ChatGPT Lost 63% Trying To Trade Crypto — But One China AI Made A Healthy Profit

Benzinga· 2025-11-05 21:58

竞赛结果概览 - OpenAI的ChatGPT在为期两周的加密货币交易竞赛中亏损了起始资金10,000美元中的6,267美元，亏损幅度达63%，在六款大型语言模型中排名最后[1][3] - 阿里巴巴的Qwen3 Max以2,232美元的利润位居榜首，DeepSeek以489美元的利润位列第二[2] - 其余模型均以亏损告终：谷歌的Gemini亏损5,671美元，X的Grok亏损4,531美元，Anthropic的Claude亏损3,081美元[2][3] 交易行为与成本分析 - 利润表现被交易成本主导，模型因过度交易和小额盈利被手续费侵蚀[4] - 交易频率差异显著，Gemini记录了238笔交易，而Claude仅进行了38笔交易[4] - 所有六款模型的胜率介于25%至30%之间[4] - Qwen3 Max产生了最高的总费用1,654美元，但凭借其严格的交易选择仍实现盈利[4] 模型策略与表现差异 - 中国模型Qwen3 Max的持续盈利与ChatGPT的巨额亏损形成鲜明对比，突显了在相同条件下不同大型语言模型的风险行为差异[5] - Qwen3 Max的成功并非依靠速度，而是通过避免过度交易，证明纪律性优于预测能力[8] - 大型语言模型在处理数值时间序列数据方面表现不佳，且面临严格的规则和有限的上下文窗口[6] 竞赛意义与行业启示 - 该竞赛作为生成式AI系统的受控压力测试，表明模型在涉及真实资金时可能失败[6][8] - 模型处理相同的图表和数据，但其结果却像具有不同风险习惯的人类交易员一样出现分化[8] - ChatGPT的亏损表明市场执行比想法或叙事更重要[8] - 投资者认识到AI可以帮助分析市场，但无法替代策略或风险管理[9]

人工智能交易

Artificial Intelligence

人工智能交易

Artificial Intelligence

首届AI交易大赛落幕，6个AI炒币2周：Qwen、DeepSeek赚钱，GPT-5血亏6000刀

36氪· 2025-11-04 19:13

大赛概况 - 首届Nof1 AI模型交易大赛于2025年10月17日启动，11月3日结束，旨在衡量AI投资能力，被誉为“币圈版的图灵测试” [1] - 参赛模型为6款代表中美两国闭源和开源供应商最新技术水平的大模型，包括DeepSeek Chat V3.1、Grok 4、Gemini 2.5 Pro、GPT-5、Qwen3 Max、Claude Sonnet 4.5 [1] - 每款模型获得1万美元初始资金，在Hyperliquid上进行加密永续合约交易，交易范围限于BTC、ETH、SOL、BNB、DOGE和XRP六种流行加密货币，全程无人类干预 [1][3] 比赛结果与模型表现 - 中国模型Qwen3 Max排名第一，收益率为22.3%，胜率为30.2%，总盈亏为$2232，总交易次数为43次 [3][5][9] - 中国模型DeepSeek Chat V3.1排名第二，收益率为4.89%，胜率为24.4%，总盈亏为$489.08，总交易次数为41次 [3][5][9] - 美国模型Claude Sonnet 4.5亏损30.81%，Grok 4亏损45.3%，Gemini 2.5 Pro亏损56.71%，GPT-5亏损62.66% [4][5] - 中国模型在风险控制与趋势识别上更为领先，而美国系模型普遍亏损严重 [12] 交易策略分析 - Qwen3 Max整体偏“进攻型”，Sharpe值为0.273，展现高风险高回报的进取型交易策略，最大盈利达$8,176 [5][9] - DeepSeek Chat V3.1策略理性稳健，Sharpe值为0.359为所有模型中最高，显示出色的风险控制能力，最大盈利$7,378 [5][9] - Gemini 2.5 Pro交易次数达238次为所有模型最高，极度活跃但胜率仅25.6%，Sharpe值-0.566，反映过度交易且回报低效 [5][10] - GPT-5交易存在较大波动且亏损严重，Sharpe值-0.525，最大盈利仅$270.77，缺乏有效的市场判断和风险管理 [5][11] 行业影响与市场观点 - 币安创始人赵长鹏评论认为，若所有人使用相同AI模型交易可能导致同质化操作，影响市场动态，但也可能通过购买力推动价格上涨 [7] - 预计因AI交易表现引起关注，未来将有更多人研究AI在交易中的应用，交易量会大幅增加 [7] - 比赛选择加密资产因市场全天候开放、数据丰富易于获取、Hyperliquid快速可靠且易集成，支持透明审计 [3]

Seek .(US:SKLTY)

加密货币交易

DeepSeek Chat V3.1

加密货币交易

DeepSeek Chat V3.1

大模型投资竞赛，中国AI包揽前二，GPT-5亏损超62%垫底

第一财经· 2025-11-04 18:18

比赛结果概览 - 一场由初创公司Nof1发起的真实数字货币市场AI投资比赛“Alpha Arena”历时17天，六大模型参与角逐 [2][3] - 最终两个中国大模型包揽冠亚军，是参赛模型中唯二实现盈利的模型，而四大美国头部模型均出现亏损 [2] - 冠军为阿里通义的Qwen3 Max，收益率达+22.32%，账户余额为12,232美元 [3][4] - 亚军为DeepSeek chat v3.1，收益率为+4.89%，账户余额为10,489美元 [3][4] - 排名第三至第六的模型亏损均超过30%，其中GPT-5亏损62.66%垫底，账户余额仅剩3,734美元 [3][5] 模型交易表现细节 - 冠军Qwen3 Max总盈利为2,232美元，手续费为1,654美元，胜率为30.2%，最大盈利8,176美元，最大亏损1,728美元，夏普比率0.273，总交易次数43次 [3] - 亚军DeepSeek总盈利489.08美元，手续费690.30美元，胜率24.4%，最大盈利7,378美元，最大亏损1,224美元，夏普比率0.359，总交易次数41次 [3] - 亏损模型方面，Claude Sonnet 4.5亏损30.81%，Grok 4亏损45.3%，Gemini 2.5 Pro亏损56.71%，GPT-5亏损62.66% [3][5] 比赛动态与市场特性 - 比赛于10月18日开始，持续约两周，期间排名持续波动，市场不可预测的特性得以体现 [6] - Grok 4曾一度收益排名第二位，但最终亏损45%位列倒数第三 [6] - DeepSeek大部分时间领跑，但在最后阶段被Qwen3 Max反超 [6] 模型交易风格分析 - DeepSeek因其母公司幻方是量化机构，表现稳定理性，策略简单直接，不换手、不止损、不止盈，覆盖各个标的 [8] - Qwen3 Max采用高风险的“All in”策略，每天全仓一个标的使用多倍杠杆，此前方向错误时损失惨重但最终盈利最高 [8] - Grok 4交易风格激进，满仓多个标的，高频跟踪趋势，波动较大 [8] - Claude擅长分析但决策犹豫，经常调仓失败、反复止损 [8] - Gemini 2.5 Pro被调侃交易风格神似散户，策略反复更改，交易次数达238次远高于其他模型，手续费也高达1,331美元 [8][3] 比赛背景与行业意义 - 主办方Nof1认为，十年前DeepMind用游戏推动AI发展，现在金融市场是下一个AI时代的最佳训练环境 [9] - 金融市场是唯一一个随着AI越来越智能而变得越来越难的基准 [9] - 团队旨在通过市场训练新的基础模型，使AI通过开放式学习和大规模强化学习不断进化 [9]

DeepSeek chat v3.1

DeepSeek chat v3.1

谁家AI更会赚钱？大模型投资竞赛中国AI包揽前二

第一财经资讯· 2025-11-04 17:13

比赛概况与结果 - 初创公司Nof1发起名为“Alpha Arena”的AI大模型真实市场投资比赛，旨在衡量AI投资能力，每个模型获得1万美元启动资金在真实市场自主交易数字货币，比赛历时17天，从10月18日开始并全程直播[4] - 按最终盈利能力排名，两个中国大模型包揽冠亚军，且是所有参赛模型中唯二实现盈利的模型，四大美国头部模型均出现亏损[1][4] - 冠军为阿里通义的Qwen3 Max，收益率22.32%，账户余额增至12232美元，其在最后阶段反超对手[4]；亚军为DeepSeek chat v3.1，收益率4.89%，账户余额为10489美元[4] - 第三至第六名均为亏损，Claude Sonnet 4.5、Grok 4、Gemini 2.5 pro亏损幅度均超过30%，GPT-5亏损最为严重，账户余额仅剩3734美元，亏损超62%[1][4] 模型交易风格与表现分析 - DeepSeek的交易风格被归因为“专业对口”，其母公司为量化机构幻方，持仓覆盖各个标的，策略简单直接，不换手、不止损、不止盈，属于理性派，大部分时间领跑，表现稳定[7] - 冠军模型Qwen3 Max的策略出奇简单，每天“All in”一个标的并使用多倍杠杆，此前方向错误时损失惨重，但最终结果盈利最多[7] - Grok 4交易风格激进，满仓多个标的，高频跟踪趋势，导致波动较大且不稳定，曾一度收益排在第二位，但最终亏损达45%[5][7] - Claude Sonnet 4.5的最大特点是非常善于分析，但过于讲逻辑，下手时犹豫不决，经常调仓失败、反复止损[7] - Gemini 2.5 pro被调侃交易风格神似散户，策略反复更改，例如一会做多一会做空，其交易次数远高于前几名模型，交易费也更高[7] 比赛意义与行业观点 - 比赛发起方Nof1认为，十年前DeepMind用游戏推动前沿AI发展，现在金融市场是下一个AI时代的最佳训练环境，也是唯一一个随着AI越来越智能而变得越来越难的基准[7] - Nof1团队旨在通过市场训练新的基础模型，希望AI通过开放式学习和大规模强化学习不断进化，最终解决终极复杂挑战[8] - 有金融行业人士对将投资完全交给AI持保留态度，认为AI不了解用户真实的资产状况、家庭、工作现状和投资偏好，单纯给出投资建议是危险行为[8] - 此外，AI的底层逻辑是归纳、总结、复现人类社会中已有的信息，而不涉及任何对未来的预测，理性的工具与人的智慧相结合或许才是最佳组合[8]

DeepSeek chat v3.1

DeepSeek chat v3.1

首届AI交易大赛落幕，6个AI炒币2周：Qwen、DeepSeek赚钱，GPT-5血亏6000刀

机器之心· 2025-11-04 16:52

比赛概况 - 首届nof1 AI模型交易大赛于2025年10月17日至11月3日举行，旨在衡量AI投资能力，被誉为“币圈版的图灵测试”[1] - 参赛者为6款顶级大模型，分别来自DeepSeek、xAI、Google、OpenAI、阿里巴巴和Anthropic，代表中美两国闭源和开源供应商的最新技术水平[1] - 每款模型获得1万美元初始资金，在Hyperliquid上进行加密永续合约交易，交易范围限于BTC、ETH、SOL、BNB、DOGE和XRP六种流行加密货币，全程无人类干预[1][3] 交易规则与设置 - 模型操作空间限制为买入（做多）、卖出（做空）、持有或平仓，进行中低频交易（MLFT），决策间隔为几分钟到几个小时[3] - 选择加密货币市场的实际原因包括市场全天候开放、数据丰富易于获取、Hyperliquid快速可靠易集成以及市场的全球性[3] - 所有交易记录、持仓、决策日志和账户余额变化实时公开，观众可通过Nof1.ai平台查看动态图表，透明度极高[4] 比赛结果排名 - 阿里巴巴的Qwen3 Max排名第一，收益率为22.3%，胜率为30.2%，总盈亏为$2232，总交易次数为43次[5][7] - DeepSeek Chat V3.1排名第二，收益率为4.89%，胜率为24.4%，总盈亏为$489.08，总交易次数为41次[5][7] - 其余模型均大幅亏损，Claude Sonnet 4.5亏损30.81%、Grok 4亏损45.3%、Gemini 2.5 Pro亏损56.71%、GPT 5亏损62.66%[6][7] 模型交易策略分析 - Qwen3 Max整体偏“进攻型”，回报率高达22.32%，尽管费用较高（$1654），但凭借30.2%的胜率和最大盈利$8176，展现“高风险高回报”策略，Sharpe值为0.273[13] - DeepSeek Chat V3.1表现稳健，回报率为4.89%，交易费用较低（$690），最大盈利高达$7378，Sharpe值为0.359，为所有模型中最高，显示出色的风险控制能力[13] - Gemini 2.5 Pro交易次数达238次为所有模型最高，但胜率仅为25.6%，回报率为-56.71%，Sharpe值为-0.566，反映出过度交易且回报低效[14] - GPT-5表现最差，回报率为-62.66%，总亏损$6266，胜率为26.7%，Sharpe值为-0.525，缺乏有效的市场判断和风险管理[15] 行业影响与关注 - 赛事引发广泛关注，币安创始人赵长鹏公开评论，认为如果所有人都用相同的AI模型交易，可能导致大家在同一时刻买卖，影响市场动态[9] - 赵长鹏预测，由于AI交易表现引起关注，未来可能更多人研究AI在交易中的应用，预计交易量会大幅增加[11] - 总体来看，中国的Qwen3 Max与DeepSeek在风险控制与趋势识别上更为领先，而美国系模型则普遍亏损严重[16]

AI投资能力测试

Artificial Intelligence

AI投资能力测试

Artificial Intelligence

华尔街之狼，与AI共舞

36氪· 2025-10-28 16:05

比赛概况 - Alpha Arena实验室于2025年10月17日至11月3日举办实时加密货币AI交易竞赛，由Jay Azhang创办[1] - 比赛规则为所有AI模型获得相同初始资金和实时数据源，在无人类干预下自主决策交易，包括策略生成、仓位管理和风控设置[1] - 设置基准选手采用简单买入并持有BTC策略，用于对比验证AI模型的收益表现[2] - 为增加曝光度引入第三方预测市场Polymarket，观众可对获胜AI下注，形成元赌局[3] - 整个过程公开透明，nof1.ai官网实时展示所有模型的持仓、交易记录和决策日志[3] 参赛模型与交易设置 - 共涉及6个全球顶尖AI模型：GPT-5、Gemini 2.5 Pro、Grok-4、Claude Sonnet 4.5、DeepSeek V3.1、Qwen3 Max[5] - 每个模型分配10,000美元真实初始资本[5] - 交易标的为BTC、ETH、SOL、BNB、DOGE、XRP等主流加密货币永续合约[5] - 所有交易均在Hyperliquid平台执行，确保资金安全和交易透明度[5] - 比赛于2025年10月18日开始，持续进行[5] 中国模型表现 - 阿里巴巴Qwen3 Max展现险中求胜的机会主义风格，前期表现平平但通过重仓做多BTC/ETH并使用20倍杠杆实现逆袭[10] - Qwen3 Max在10月19-20日市场上涨时果断押注，账户资产实现两位数累计收益率，截至10月23日较初始上涨13%-47%[10] - Qwen3 Max交易频率较低，平均持仓时长超过7小时，体现"少即是多"策略[10] - DeepSeek V3.1保持稳健盈利，竞赛初期账户价值冲高到14,150美元，涨幅达40%[10] - DeepSeek策略被形容为"耐心的狙击手"，总共只下6笔订单，平均单笔持仓超过21小时[10] - DeepSeek在六种加密资产上多元化布局，杠杆适中，严格遵守止盈止损纪律[10] - 当市场在10月21日前后回调时，DeepSeek及时收缩战线，截至23日仍保持8%-21%净收益[11] - DeepSeek的纪律性印证其背后研发团队的量化对冲基金背景[12] 西方模型表现 - OpenAI的GPT-5频繁追涨杀跌、情绪化操作，止损设定不当，短短数日亏损达30%-40%[14] - GPT-5到一周时账户缩水高达65%-75%，成为"亏损之最"[14] - Google的Gemini 2.5 Pro存在过度交易和滥用杠杆问题，平均每日进行15次进出场[14] - Gemini在前三天进行44次交易，累积支付近440美元手续费，蚕食近三分之一本金[14] - Gemini错过10月19日大涨行情后高位翻多，使用40倍杠杆遭遇行情反转，首周亏损超过55%[14] - xAI的Grok-4凭借对社交媒体情绪敏锐捕捉，初期通过54小时持仓获取35%收益，但后续回吐大部分利润，净收益转为约-15%[15] - Anthropic的Claude Sonnet 4.5全程谨慎保守，只下3单，前期曾有24%涨幅但最终收益转负约-17%[19] - Claude虽盈利不多，但一度创造所有模型中最优夏普比率，体现"稳健不过山，有时胜过猛盈利"[19] 市场环境与实验意义 - 加密货币市场是典型零和博弈，信息极度不对称，价格每分每秒波动，没有唯一答案[7] - 传统AI评估在静态环境中测试，而加密市场要求AI在动态环境中应对风险[6][7] - 基准的"买入并持有BTC"策略在此期间盈亏基本持平，未大幅跑输或跑赢AI模型[20] - 实验展示AI在无标准答案世界中试错的能力，为金融领域智能应用提供新视角[20]

加密货币交易

Claude Sonnet 4.5

加密货币交易

Claude Sonnet 4.5

实测用 AI 炒币，谁赚得最多？

搜狐财经· 2025-10-27 13:39

实验概述 - 初创公司Nof1发起名为Alpha Arena的实验，让多个AI模型在真实数字货币市场进行实盘交易[1] - 每个AI模型获得一万美元启动资金，交易收益、持仓及交易逻辑均实时公开[4] - 实验采用真实交易而非模拟盘，是AI界的"Battle Royale"[4] 参赛阵容与初期表现 - 参赛AI包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet、马斯克的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat[6] - DeepSeek开盘即满仓做多BTC、ETH、DOGE，几小时内盈利近一千美元，收益率达10%[6] - GPT-5表现谨慎，仓位分散且杠杆极低，在行情上涨时仍犹豫不决[8] - Gemini频繁换仓、追涨杀跌，每分钟都在操作，手续费高且亏损近一半[8] 交易风格与人格特征 - DeepSeek交易冷静，日志显示"条件未触发，继续持仓"[9] - Claude分析严谨，日志如论文般提及"根据链上指标与宏观趋势，BTC短线或反弹，但风险依旧"[11] - Grok风格激进，日志显示"趋势没完，拉满仓干"[11] - Gemini即使爆仓仍坚持原计划，日志称"止损条件未满足，计划不变"[11] 中期战况变化 - 截至21日中午，Gemini净值排名垫底，但21日下午表现回暖成功超越GPT-5[15] - 榜尾顺序变为Gemini倒数第二，GPT-5正式垫底[15] - 22日下午开始，Qwen3 Max与DeepSeek展开激烈拉锯战，两者互有领先[15] 最终排名与市场反应 - 截至26日中午12点，Qwen3 Max以微弱优势超越DeepSeek登顶第一[17] - Grok和Claude位列中游，Gemini回升但仍倒数第二，GPT-5垫底[19] - 网友热议DeepSeek被反杀，认为幻方AI也有失利之时[20] - 有分析指出样本太少偶然性大，建议重复100次取平均成绩[21] 实验意义与行业影响 - 实验是AI首次用真金白银面对真实、混沌、不可控的市场环境[22] - 不同于传统语言分数比拼，此次考核的是AI在不确定性中生存的能力[22] - 实验被视为人机决策的对照实验，每个AI都像人类情绪的镜像[22] - 类比DeepMind下围棋开启AI强化学习新纪元，此次实验可能让AI进入最复杂的博弈场——市场[24] - 实验将于11月3日迎来最终收官[24]

人机决策对照

Claude 4.5 Sonnet

人机决策对照

Claude 4.5 Sonnet

中国AI模型超美国模型，靠AI炒股的时代来了吗？

36氪· 2025-10-26 17:20

实验概述 - 全球首次AI炒币实盘对决在Alpha Arena平台进行，六大中美顶级AI模型各获1万美元实盘资金，自由买卖BTC、ETH、SOL等主流加密货币[1] - 实验旨在测试AI模型在最真实、不可预测的金融市场中的表现，而非静态知识评估，模型需分析数据和市场情绪，如同真实交易员[2] - 实验提供了观察AI在真实市场中博弈的窗口，重点在于分析其买卖标的、持仓时长及止盈止损策略，而非仅关注收益结果[11] 参赛模型表现 - 开赛6天后，Qwen3 Max以20倍杠杆、近乎全仓的激进策略实现总收益13.41%，现金余额一度仅剩96.8美元，领先其他模型一天多[7] - DeepSeek Chat v3.1收益率曾接近40%，盈利超4000美元，后随大盘下跌回吐部分收益，收益率稳定在10%左右，位列前两名[3] - GPT-5亏损高达68.9%，表现持续下行；Grok-4因高频激进、涨跌均不割肉的策略，在实现超40%盈利后迅速跳水；Claude因理性保守、仓位轻、止损严，总收益为负17.46%[4] 模型能力背景分析 - DeepSeek由幻方量化团队训练，在金融和数学方面有积累，但此次大赛前的小规模测试中，GPT和Grok实现盈利，DeepSeek反而出现亏损[7] - 实验作为基准测试仍缺乏大样本、长时间、跨市场的数据积累，以及透明可复现的设置，存在较大随机性和不可靠性[9] AI在投资领域的应用现状 - 据路透社消息，至少十分之一的散户投资者已开始依赖ChatGPT或Gemini等聊天机器人筛选投资标的[12] - 券商eToro指出，使用AI选股要求使用者具备一定金融知识，否则试错成本高昂，且目前并无市场公允推荐的能高成功率预测市场的模型[12] - 多家券商已推出收费AI选股服务，如中国银河证券的“财富星AI投顾”包含AI选股、数据等功能；东方财富“妙想”模型分体验版、进阶版和专业版，季度费用从518元至818元不等[16][18] 金融大模型发展历程 - 2023年彭博社发布500亿参数的BloombergGPT，但其成本高昂、系统封闭，普通开发者无法触及，模型为黑箱运作，金融预测性提升感知不强[14] - 2025年8月清华大学发布开源项目Kronos，旨在利用时间序列大模型预测K线走势，但使用者反馈其观点判断过于平均市场化或臆造，预测结果难以信服[14] AI投资的局限性 - 大模型往往从市面挖掘有效因子，对矛盾之处缺乏深入推理，导致策略趋同，难以跑赢资金体量更大、信息调研更强的量化机构[15] - AI更擅长技术面分析，如趋势、成交量等；基本面分析多重复新闻和研报，仍需用户自行分析行业前景和盈利能力[21] - AI难以判断“黑天鹅”风险，对“灰犀牛”事件认知滞后，面对全新商业模式或颠覆性技术等“未知的未知”时可能犯灾难性错误[23][24] - 知名投资人段永平将AI投资定义为“高级的看图看线”，认为其是在优化“猜人心”的游戏，而非实践“估价值”的投资[23] 有效使用AI投资的要点 - 用户需比AI更懂投资，明确自身炒股目标和纪律，并注意AI数据的可靠性，具备被投资行业的常识[20][22][23] - AI输出质量高度取决于数据质量和提示词设计，用户需反复与AI解释强调以达成定义共识，例如对价值投资和“护城河”的理解[20][21] - 利用AI进行上市公司财报总结和行情基本分析是高效趋势，可将繁琐的文本图表任务交给AI，但选择模型不应以名气判断，而应根据自身目标考察完成度准确性，并保持频繁使用和调换[18][22]

金融大模型

金融大模型