Workflow
DeepSeek v3.1
icon
搜索文档
全球首场AI炒币投资赛:中国模型包揽冠亚军,美国四款大模型惨败
搜狐财经· 2025-11-06 21:02
大赛结果与排名 - 阿里旗下千问Qwen以22.32%的收益率夺冠,账户价值达12,232美元[1][5] - DeepSeek v3.1以4.89%的收益率获得第二名,账户价值10,489美元[1][5] - 四款美国大模型全部亏损,GPT-5亏损62.66%排名垫底,Gemini 2.5 Pro亏损56.71%,Grok 4亏损45.3%,Claude Sonnet 4.5亏损30.81%[5] 交易策略分析 - 阿里千问采用激进策略,曾使用30倍杠杆集中做多比特币,最终实现反超夺冠[6] - DeepSeek采取低频高杠杆策略,主攻比特币、以太坊等主流币种,风险分散,收益稳定[6] - 美国模型表现如情绪化散户,Gemini 2.5 Pro完成238笔交易,在一小时内从做空狗狗币转为做多,操作杂乱无章[7] - GPT-5在多个币种上追涨杀跌,完成116笔交易,毫无节奏可言[7] 比赛设置与意义 - 大赛由美国nof1.ai机构发起,为期近三周,从10月18日开始[3][4] - 六款顶尖AI模型各配备1万美元初始资金,在真实金融市场中独立完成投资决策[4] - 比赛全程无人工干预,完全自主交易,以盈亏结果定胜负[4] - 所有模型在真实市场中裸奔测试,对策略调整能力和风险判断能力提出极大挑战[8] 行业影响与评价 - 中国AI模型在实际应用中表现突出,特别是在复杂环境下的能力得到验证[10] - 来自OpenRouter平台7月数据显示,Qwen3-Coder调用量高居全球第一,通义千问包揽调用量前三[10] - 主办方创始人Jay Azhang认为此类比赛将成为未来评估AI模型实用性的标杆[10]
1万美元实盘交易!全球首个AI投资大赛收官:中国大模型全盈利,美国GPT-5亏损超62%垫底【附大模型行业前景分析】
搜狐财经· 2025-11-05 15:41
AI大模型投资比赛结果 - 全球首个AI大模型实时投资比赛“Alpha Arena”历时17天,吸引了中美六款顶尖AI大模型参与,每款模型使用一万美元初始资金进行真实交易[2] - 中国模型Qwen3-Max以超过20%的收益率夺冠,另一中国模型DeepSeek v3.1位居第二,两者是全场唯二盈利的模型[2] - 四款美国模型全部亏损,其中GPT-5亏损超60%,排名垫底,中国模型在本次比赛中实现全盈利并完胜美国模型[2] 中国大模型行业竞争格局 - 中国大模型市场呈现“百模大战”态势,竞争异常激烈,涵盖通用大模型、行业大模型和端侧大模型等多种类型[3] - 百度、阿里、华为等科技巨头与DeepSeek、智谱清言等初创企业共同推动市场多元化竞争格局,促进技术快速迭代和创新[3] - 截至2024年第一季度,中国人工智能大模型累计发布数量达478个,数量排名仅次于美国[4] 中国AI科研实力与发展前景 - 中国AI研究人员数量从2015年不足万人增长至2024年的5.2万人,年复合增长率达28.7%,中美两国研究人员合计占全球近六成[4] - 中国科学院以585篇高影响力论文位居全球科研机构榜首,显示中国科研力量正在不断崛起[4] - 语言大模型被认定为人工智能的“主赛道”,初步测算到2030年中国大模型市场规模将超过2200亿元,年复合增速在40%以上[4] 行业战略定位 - 人工智能大模型被视为新质生产力的代表,大模型与超级计算的融合发展非常重要,需要认真布局考虑[6]
中国大模型赢下AI投资大赛,科创AIETF(588790)连续3日“吸金”合计1.24亿元
搜狐财经· 2025-11-05 10:29
指数及ETF表现 - 截至2025年11月5日10:00,上证科创板人工智能指数下跌1.85% [3] - 科创AIETF(588790)当日下跌2.03%,最新报价0.77元 [3] - 科创AIETF近3月累计上涨23.16% [3] - 科创AIETF盘中换手1.58%,成交9359.96万元 [3] - 科创AIETF近1月日均成交4.29亿元,排名可比基金第一 [3] 成分股表现 - 石头科技领涨2.03%,思看科技上涨1.41%,天准科技上涨0.87% [3] - 福昕软件领跌6.96%,合合信息下跌6.80%,复旦微电下跌3.89% [3] AI行业动态与前景 - 阿里千问Qwen3-Max在AI大模型实盘投资比赛中以突破20%的收益率获得冠军 [4] - DeepSeek v3.1位居比赛第二,两款中国模型是全场唯二盈利的大模型 [4] - 来自美国的四款大模型全线亏损,OpenAI的GPT-5亏损超60%垫底 [4] - 人工智能产业已进入良性循环,推动行业持续增长,全球算力基建仅走完第一年,完整周期预计至少10年 [4] - 当前中国AI模型性能不断提升,以DeepSeek、Minimax、Moonshot等为代表的中国大模型企业在全球排名中表现突出 [4] 科创AIETF资金与规模 - 科创AIETF最新规模达60.36亿元,位居可比基金1/10 [4] - 科创AIETF近半年份额增长30.81亿份,新增份额位居可比基金1/10 [5] - 科创AIETF近3天获得连续资金净流入,合计吸金1.24亿元,最高单日净流入8536.36万元,日均净流入达4141.58万元 [5] 指数构成 - 上证科创板人工智能指数从科创板市场选取30只为人工智能提供基础资源、技术及应用支持的上市公司证券作为样本 [5] - 截至2025年10月31日,指数前十大权重股合计占比70.92% [5]
全球首个AI投资大赛落幕:中国模型全部盈利 美国模型全部亏损
新京报· 2025-11-04 13:54
比赛概况 - 首个AI大模型实时投资比赛“Alpha Arena”于北京时间11月4日结束,由三方机构Nof1于10月18日发起 [1] - 比赛集合六个顶尖大模型,包括中国的DeepSeek v3.1、Qwen3-Max以及美国的GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4 [1] - 每个模型拥有1万美元初始资金,在真实市场上无人工干预地自主决策和交易,根据盈亏情况决出冠军 [1] - 比赛历时17天 [2] 比赛进程与策略 - 比赛前半段,DeepSeek v3.1一直处于领先位置 [1] - Grok 4通过激进的投资策略,一度将与DeepSeek v3.1的差距缩短到1美元 [1] - 10月21日至22日成为转折点,Grok 4和Claude Sonnet 4.5收益大幅下滑,由盈转亏,10月22日当日六个大模型收益率一度全部告负 [1] - 在转折点后,DeepSeek v3.1和Qwen3-Max自动改写投资策略,在其他模型持续亏损的情况下脱颖而出 [2] - Qwen3-Max在过程中一度超过DeepSeek v3.1 [2] 最终结果与表现排名 - Qwen3-Max以1.22万美元的最终资产,超过20%的收益率夺得冠军 [2] - DeepSeek v3.1以10.49万美元的最终资产获得第二名 [2] - 两个中国模型成为唯二盈利的模型,而四个美国顶尖模型全部亏损 [2] - 参赛模型分为三大阵营:两家中国模型屡次互换第一,始终位列第一梯队;Claude Sonnet 4.5和Grok 4维持在第二阵营,略有盈利但整体仍亏损;GPT-5和Gemini 2.5 Pro长期亏损垫底 [2] - GPT-5亏损超60%垫底 [2]
全球首个AI投资大赛落幕:中国模型全部盈利,美国模型全部亏损
新京报· 2025-11-04 13:47
比赛概况 - 首个AI大模型实时投资比赛“Alpha Arena”于11月4日结束,历时17天,初始资金为一万美元 [1] - 参赛模型包括来自中国的DeepSeek v3.1、Qwen3-Max以及来自美国的GPT-5、Gemini2.5Pro、Claude Sonnet4.5、Grok4,共六个顶尖大模型 [1] - 比赛在真实市场进行,模型无人工干预自主决策交易,根据盈亏决出冠军 [1] 比赛进程与策略 - 比赛前半段DeepSeek v3.1处于领先位置,Grok4通过激进策略一度将差距缩短至1美元 [1] - 10月21日至22日成为转折点,Grok4和Claude Sonnet4.5收益大幅下滑由盈转亏,当日所有六个模型收益率一度全部告负 [1] - DeepSeek v3.1和Qwen3-Max在关键时刻自动改写投资策略,在其他模型持续亏损时脱颖而出 [2] 最终排名与业绩 - Qwen3-Max以12200美元资产和超过20%的收益率夺得冠军,DeepSeek v3.1以10490美元资产获得第二名 [2] - 两家中国模型成为唯二盈利的模型,四大美国顶尖模型全部亏损 [2] - 参赛模型形成三大阵营:两家中国模型位列第一梯队多次互换第一;Claude Sonnet4.5和Grok4维持第二阵营略有盈利但整体亏损;GPT-5和Gemini2.5Pro长期亏损垫底,其中GPT-5亏损超60% [2]
全球首个AI投资大赛落幕,六大AI模型实盘投资火拼阿里千问夺冠
搜狐财经· 2025-11-04 13:28
比赛结果概览 - 阿里千问Qwen3-Max以22.32%的收益率获得冠军,最终账户价值为12,232美元 [1][4] - DeepSeek v3.1以4.89%的收益率获得第二名,最终账户价值为10,489美元 [1][4] - 四大美国模型GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5和Grok 4全部亏损,其中GPT-5亏损62.66%表现最差 [1][4][5] 模型表现对比 - 两款中国模型是比赛中唯二实现盈利的模型 [1][5] - 美国模型中Claude Sonnet 4.5亏损30.81%,Grok 4亏损45.3%,Gemini 2.5 Pro亏损56.71% [4] - 截至比赛结束,Gemini 2.5 Pro和GPT-5的持仓总市值仅为初始资金的三到四成 [5] 比赛进程与策略 - 比赛初期所有模型相对谨慎,约5天后分化为三大阵营 [3] - 阿里千问和DeepSeek始终位列第一梯队,屡次互换领先位置 [3] - 阿里千问在关键时刻通过紧急避险操作,在最后关头超越DeepSeek赢得冠军 [5] 交易行为分析 - Grok 4交易次数最多,达147次,但亏损45.3% [4] - Gemini 2.5 Pro交易238次,亏损56.71%,是交易最频繁的模型 [4] - 冠军模型阿里千问交易43次,胜率为30.2% [4]
AI大模型实时投资比赛“Alpha Arena”落幕!阿里千问Qwen以22.32%的收益率夺冠,四大美国顶尖模型全部亏损,GPT-5亏损超62%垫底
搜狐财经· 2025-11-04 11:34
比赛结果 - 阿里千问Qwen在历时17天的AI大模型实时投资比赛中以22.32%的收益率夺得冠军[1] - 参赛模型包括Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4等全球六大顶尖模型[1] - 比赛规则为每个模型拥有一万美元初始资金,在真实市场上无人工干预地自主决策和交易[1] 模型表现对比 - Qwen和DeepSeek两款中国模型是比赛中唯二实现盈利的模型[1] - 参赛的四大美国顶尖模型GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4全部亏损[1] - 其中GPT-5亏损超过62%,在比赛中表现垫底[1]
当AI开始“查户口”,谁在为中国的科技公司兜底?
搜狐财经· 2025-09-23 23:46
Anthropic的禁令事件 - Anthropic于2025年9月突然宣布,所有由中国资本控股的公司,无论注册地,均被禁止使用其AI模型Claude [1] - 此次禁令并非基于性能或付费问题,而是基于资本“出身问题”,被描述为AI时代的“查户口” [1] - Claude是全球AI编程工具链的“标配”,许多创业公司依赖其进行写代码、修Bug和自动化测试等核心业务 [1] - 此举导致依赖Claude搭建核心系统的中国出海企业面临系统未来的不确定性,并引发对AI基础设施的信任崩塌 [2][4] AWS的战略反击与平台定位 - 在Anthropic发布禁令约两周后,AWS将阿里云的通义千问Qwen3和深度求索的DeepSeek v3.1上架至Amazon Bedrock平台,向全球客户开放一键调用 [5][6] - 与微软Azure深度绑定OpenAI、谷歌云优先推广Gemini、以及国内云厂商自建封闭生态不同,AWS采取了开放策略,将包括竞争对手在内的多种模型纳入其平台 [9][10][11][12] - AWS通过Amazon Bedrock平台汇集了来自AI21 Labs、Anthropic、Cohere、Meta、阿里云、深度求索等公司的众多模型,客户可按调用付费使用 [18] - 该策略的核心目的是掌控“模型分发权”或“渠道权”,通过成为全球AI模型的“天猫商城”来定义AI时代的权力结构,确保客户永远有选择权 [15][16][17][19] 对中国AI行业的影响 - AWS上架Qwen3和DeepSeek v3.1,使中国AI模型首次作为一级服务直接嵌入全球云服务体系,为中国大模型提供了关键的“出海船票” [20][23] - 此举意味着国际企业(如德国车企、新加坡金融科技公司、美国SaaS公司)可便捷地在其生产环境中调用中国模型,用于中文文档、代码审计或本地化功能 [22] - 中国AI技术因此得以通过主流商业渠道站上世界舞台,无需完全依赖传统的“关系”或“合作” [23] 行业竞争格局的演变 - Anthropic的禁令行为揭示了AI技术的地缘政治属性,模型可用性开始受到资本来源等非技术因素影响 [24][26] - AWS的反击行动展示了在冲突环境中维持“技术中立”和“选择自由”的商业模式,其平台定位类似于“数字时代的中立国” [24][25][27] - 云竞争的焦点正从计算、存储等基础资源转向对模型入口的控制权 [16][17]
一家营收千亿美元的公司,如何回应AI落地的策略问题
36氪· 2025-09-19 19:59
Amazon Bedrock产品策略与市场定位 - 产品核心理念为“Choice Matters”(选择大于一切),旨在为不同业务提供最契合的基础模型,模型选择多样性和灵活性是关键 [3] - 平台提供模型数量达二百余款,是市面竞品整体“供货”数量的两倍以上 [3] - 已成为应对行业波动、灵活多元化的MaaS(模型即服务)基础设施的几乎唯一答案,其策略对AI落地行业进程产生深远影响 [5][12] 基础模型行业竞争格局演变 - 2025年基础模型厂商竞争态势不断变化,不同模型针对不同地区的服务政策也存在差异,凸显了模型选型灵活性的实际意义 [3] - 早期行业推论认为大模型训练成本极高(万卡集群是入场券),闭源模型将主导市场,“百模大战”会收缩为少数巨头竞争 [4] - 另一技术侧推论认为大语言模型在数据和架构上进化空间有限,导致部分公司如百川智能等过早放弃基础模型技术探索,间接错过AI Agent红利 [4] 模型技术性能与迭代速度 - 大模型技术发展曲线依旧陡峭,市场选择丰富,基于单一模型构建的AI能力易被新技术突破所淘汰 [5] - 定制化To B AI解决方案在2025年技术迭代加速,例如因DeepSeek发布导致早期方案过时,后续又因Qwen3、Kimi K2、DeepSeek v3.1发布而再次更新,出现半年刷新三次的情况 [5] - DeepSeek-V3.1在多项基准测试中表现显著提升:SWE-bench Verified得分66.0,较DeepSeek-V3-0324的45.4提升45.4%;SWE-bench Multilingual得分54.5,较DeepSeek-V3-0324的29.3提升86.0%;Terminal-Bench得分31.3,较DeepSeek-V3-0324的13.3提升135.3% [1] 行业特定解决方案与模型选型 - Amazon Bedrock可为具体行业和场景提供差异化模型选型建议,例如媒体广告行业可选Marengo、Pagsus、Stable Diffusion;金融行业可选Palmyra x5;重推理场景可选DeepSeek-V3.1;文本摘要可选Mixtral [6] - Palmyra x5专为金融场景优化,其上下文窗口达100万Token,比一般推理模型高出一个数量级,更适应财务报告和法律合同分析 [6][7] - 中企出海趋势在2025年达到高潮,国内与海外模型选型模板和采购清单不同,但大多数模型均可在Amazon Bedrock找到 [6] 模型技术发展趋势与能力侧重 - 大模型整体发展从单一走向多元化,从通识能力演变为专业能力,未来Agent平台的内生逻辑需要“Choice Matters”策略 [7] - DeepSeek v3.1更强调Agent能力和推理效率,新增840B Tokens训练数据重点提升代码和数学类占比,以增强逻辑推理和数学能力,被称为“迈向Agentic AI时代的第一步” [8][9] - Qwen3同样重视代码、数学、Agentic数据,并特别强调多语言能力,支持119种语言,其中文训练数据占比仅45% [9] - Qwen3部署成本大幅下降,4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一 [9] Amazon Bedrock平台能力与评估体系 - 平台将模型实验和切换能力沉淀为系统级竞争优势,能够快速测试和部署不同模型的组织优于锁定单一模型方法的组织 [10][11] - 模型评估设置两条核心路径:自动评估适用于客观指标,人工评估针对主观判断并可借用官方提供的人工评估团队,最终生成详细评估报告 [11] - 平台提供精选公开数据集并允许企业上传特定业务数据集,提升了模型测试和选型能力的实际价值,替代了传统咨询公司在模型介绍、推荐与评估方面的部分主营业务 [11][12] 市场影响与财务表现 - “Choice Matters”策略是亚马逊云科技实现营收快速增长的原因之一 [6] - 2024年,亚马逊云科技全球营收突破千亿美元大关 [6] - 音视频模型技术演进加速,AI短剧成为“蓝海市场”,未来市场规模可能达到千亿级 [5]
DeepSeek、GPT-5带头转向混合推理,一个token也不能浪费
机器之心· 2025-08-30 18:06
混合推理模式行业趋势 - AI行业面临过度思考导致的算力浪费问题 推动自适应计算技术发展 [2][3] - 2024年多家头部公司推出混合推理方案 通过动态调整计算资源实现50-80%的token节省 [3][7][10] - 混合推理成为大模型领域新常态 成本与性能平衡成为核心竞争力新基准 [11][48] 技术实现路径对比 - 路由方案:OpenAI的GPT-5采用多模型路由系统 根据问题复杂度自动选择gpt-5-main或gpt-5-thinking等模型 [36][37] - 单模型双模式:DeepSeek v3.1通过</think>/<think>标记实现思考模式切换 在基准测试中减少25-50% token消耗 [3][10][46] - 显式控制方案:阿里Qwen3采用/think和/no_think标记 谷歌Gemini 2.5 Flash支持0-24576 token的思考预算调节 [19][23] 头部公司技术布局 - Anthropic的Claude 3.7 Sonnet首创混合推理 支持API端精细控制思考时长 [18] - 腾讯Hunyuan-A13B采用双模式思维链框架 通过后训练统一优化快慢思考两种模式 [34] - 智谱GLM-4.5通过专家训练+自蒸馏技术整合推理能力 实现反思与即时响应模式切换 [35] - 字节Seed 1.6采用Adaptive CoT技术 通过强化学习实现帕累托最优的推理链触发机制 [31][32] - 快手KwaiCoder-AutoThink采用两步式训练 增加pre-think阶段预判问题难度 [27][28] 性能与成本数据 - GPT-5思考模式比前代减少50-80%输出token [7] - DeepSeek v3.1在AIME 2025等测试中保持性能同时减少25-50% token消耗 [10] - Gemini 2.5 Flash启用推理功能后输出成本相差6倍 [23] - 当前20分钟深度研究调用成本约1美元 预计2027年单用户单日Agent调用成本达72美元 [14][15] 技术挑战与演进方向 - 阿里Qwen3混合推理因基准测试表现不佳暂停 转向分模型训练方案 [21] - OpenAI路由方案遭遇专业用户质疑 存在路由不透明和低质量模型分配问题 [38] - 研究领域聚焦无需训练(提示词/路由/解码操纵)和基于训练(微调/强化学习)两大技术路径 [50][51] - 多模态领域出现R-4B等自适应思考模型 自动化程度持续提升 [52] 商业模式创新 - 路由模式使OpenAI可从免费用户提问中识别商业意图 导向高算力模型并实现成交抽成 [43] - 企业级应用更关注成本精确控制 Gemini 2.5 Pro的思考预算机制支持像调节水龙头一样调节AI思考成本 [24] - 深度研究等长任务模式导致token消耗每6个月翻倍 订阅费上涨压力持续存在 [14][16] 未来发展方向 - 行业竞争重点从"是否能思考"转向"能否以最低代价在恰当时刻思考" [56][57] - 技术目标聚焦更智能的自我调节 减少对人类指示的依赖 [57] - 开源模型如DeepSeek v3.1提供高性价比选择 企业级部署成本控制需求持续强化 [46][24]