Workflow
Claude 4.5 Sonnet
icon
搜索文档
Xiaomi MiMo-V2-Flash开源:能力比肩标杆闭源模型Claude 4.5 Sonnet
凤凰网· 2025-12-17 18:26
凤凰网科技讯12月17日,小米官方宣布Xiaomi MiMo-V2-Flash开源。据悉,该模型是小米专为极致推理 效率自研的总参数309B(激活15B)的MoE模型,通过引入Hybrid注意力架构创新及多层MTP推理加速, 在多个Agent测评基准上进入全球开源模型Top2。代码能力比肩标杆闭源模型Claude4.5Sonnet,但推理 价格仅为其2.5%且生成速度提升至2倍。 今日上午的2025小米"人车家全生态"合作伙伴大会上,Xiaomi MiMo大模型负责人罗福莉也介绍了该模 型构建的细节。她称,Xiaomi MiMo-V2-Flash在大部分评测基准上超过了DeepSeek V3.2和K2- Thinking,同时对比参数量减少了二分之一至三分之二,在全球大致处于相同水位的顶尖模型速度和成 本象限里,MiMo-V2-Flash实现了低成本、高速度,已初步具备模拟世界的能力。 罗福莉称,在她看来,下一代智能体系统不是一个"语言模拟器",而是一个真正理解人类世界,并与之 共存的"智能体"。Agent执行能力方面,应实现从"回答问题"到"完成任务"的转变,具备记忆、推理、 自主规划、决策、执行等能力。从 ...
错过GPT时刻后,闫俊杰和中国“草根”们准备赢回来
观察者网· 2025-12-12 14:58
文章核心观点 - 中美AI竞争格局发生深刻变化,以MiniMax、DeepSeek为代表的中国开源AI企业,凭借技术实力、极致效率和独特的商业模式,正在全球舞台上与美国闭源巨头(如OpenAI、Anthropic)展开正面竞争并取得显著成果,中国AI从过去的“追随者”转变为“应用落地的引领者” [5][12][14] 行业竞争格局与历史脉络 - 中美AI领军人物(Anthropic的Dario Amodei与MiniMax的闫俊杰)有共同起点,均曾为百度北美实验室实习生,但后续发展路径不同,分别在美国和中国引领了大模型的发展 [1] - 十年前,中国团队虽洞察到AI趋势(如Scaling Law),但因特定产业环境未能率先突破,与美国在通用大模型发展上存在时间差 [1][4] - 当前,以DeepSeek、MiniMax为代表的中国开源模型企业,正与美国OpenAI、Anthropic等闭源模型生态进行全方位正面对决 [5] 中国AI企业的技术实力与突破 - **模型性能**:DeepSeek最新发布的V3.2模型在关键推理和数学能力上刷新了SOTA纪录,多项核心基准测试中足以比肩甚至部分超越谷歌Gemini 3 [7] - **实战应用认可**:MiniMax M2模型上线OpenRouter后,日Token消耗量一度突破500亿,是首个达到此成绩的中国模型,其份额与xAI、Google、Anthropic和OpenAI等美国闭源模型并驾齐驱 [9] - **架构与性价比**:MiniMax M2利用稀疏混合专家(MoE)架构将激活参数压至100亿,以仅为Claude 4.5 Sonnet 8%的极致性价比获得大量好评 [9] 中国AI企业的核心竞争力与组织模式 - **人才观与组织**:不迷信硅谷的“天价雇佣兵”或“天才光环”,认为中国年轻人蕴藏巨大潜力,关键在于有效组织;MiniMax内部技术大牛多从团队内部成长,靠钱并非留住创新者的核心 [6][7] - **战略定力与第一性原理**:在公司成立之初,坚定选择“技术驱动”之路,认为大模型时代真正的产品是模型本身,传统APP更像渠道 [10] - **极致效率与成本控制**:MiniMax-M1的强化学习过程仅使用512块英伟达H800 GPU训练三周,租赁成本为53.74万美元(约380万人民币),仅为OpenAI同等模型训练成本的零头 [11] - **人机协同**:公司内部使用AI Agent辅助工作(如自动修改代码),提升组织效率,实现了“实习生也有实习生”的人机协同奇景 [11] 商业模式与市场表现 - **商业闭环**:MiniMax今年年度经常性收入(ARR)已达1亿美元,在视频赛道率先实现正向现金流 [14] - **市场策略**:创新主阵地在Web端,因其能够不依赖买量而自然增长;拒绝“烧钱买量”的务实导向 [14] - **产品差异化**:在AI陪伴领域,产品Talkie不追求所有人喜欢,而是为目标用户提供独特价值,从而在强手如林的美国市场撕开口子 [15] - **全球化与用户导向**:公司坚持直接服务用户、坚持全球化、坚持技术驱动三条原则 [10] 行业影响与未来展望 - **资本效率对比**:全球投行Jefferies报告指出,中国头部AI公司的资本支出仅为美国的18%,但模型性能紧追不舍 [12] - **应用落地引领**:中国“开源军团”在全球应用市场全面开花,例如DeepSeek被诺贝尔奖得主保罗·罗默每日使用,海螺AI、可灵(Kling)等视频生成应用在美国创作者社区口碑炸裂 [14] - **生态冲击**:中国开源生态在性能与成本上对美国高投入闭源模式形成冲击,若OpenAI遭遇危机,可能引发美国整个相关生态的集体失败 [15] - **行业信心**:中国AI创业者自信未来三年内,即使不是自家公司,也会有其他中国团队能够做到引领世界 [15]
低成本叫板GPT-5.1,马斯克杀入智能体
36氪· 2025-11-20 16:56
产品发布与核心特性 - xAI公司推出新模型Grok 4.1 Fast及智能体工具xAI Agent Tools API两大更新[2] - Grok 4.1 Fast是公司迄今性能最佳的工具调用模型,支持200万token上下文窗口,擅长处理客户支持和财务等复杂应用场景[2] - 该模型在人工智能分析智能指数中跃升4位至第六位,在智能体调用测评Telecom排行榜以93.3%得分位居榜首,超越GPT-5.1等模型[3] - Grok 4.1 Fast幻觉率比Grok 4 Fast降低一半,事实性更准确[3] 性能表现与基准测试 - 在τ²-bench Telecom测试中,Grok 4.1 Fast以更低成本超越GPT-5.1、Gemini 3 Pro、Claude 4.5 Sonnet等模型性能[9] - 通过长时域强化学习训练,模型在长达200万token的上下文窗口中保持稳定性能[13] - 实测显示,Grok 4.1 Fast在实时信息检索效果上比Grok 4 Fast明显提升,但在经典编程案例上表现不如前代版本[7][14][17][19][21] - 在X Browse内部基准测试中,Grok 4.1 Fast得分56.3,平均成本0.091美元,优于GPT-5和Claude Sonnet 4.5[33] 工具功能与集成 - Agent Tools API使智能体能访问实时X数据、网络搜索、远程代码执行等功能[6] - 结合使用Grok 4.1 Fast和Agent Tools API,开发人员可构建生产级智能体,用于工具调用和智能体搜索[7] - API主要功能包括搜索工具、文件搜索、代码执行和MCP工具连接,所有工具运行在xAI基础架构上,简化开发流程[28][31] 定价策略与市场推广 - Grok 4.1 Fast输入定价为0.2美元/百万tokens,缓存输入0.05美元/百万tokens,输出价格0.5美元/百万tokens[8] - Agent Tools API调用价格5美元起/1000次成功调用,在12月3日前用户可免费体验以上服务[8][34] - xAI与OpenRouter合作,免费提供Grok 4.1 Fast,公司将在API上发布推理和非推理两个模型变体[34]
成本不到竞品8% 这家中国AI企业为何能突破
新华网财经· 2025-11-14 18:51
模型性能与市场表现 - 公司发布并开源新一代文本大模型MiniMax-M2,该模型激活参数为10B,在全球权威测评榜单Artificial Analysis上综合能力冲入全球前五 [2] - 模型在数学、科学与编码等10个核心领域的能力评估中表现出色,展现出卓越的代码能力、强大的智能体表现和优异的搜索能力三大核心优势 [3] - 模型上线不到两周,在知名AI模型聚合平台OpenRouter上的调用量已跻身全球前3,单日调用量高达820亿次 [4] 成本优势与技术路径 - 模型综合成本不到Claude 4.5 Sonnet的8%,推理速度快近一倍,价格压缩至输入每百万Token 0.3美元、输出每百万Token 1.2美元 [2][4] - 成本优势源于创新的模型架构设计,通过高效的激活参数管理和算法优化,在保持性能的同时大幅降低了计算资源消耗 [4] - 成本的大幅降低使得AI技术走向普惠,中小企业及个人开发者能负担顶尖AI能力,为AI技术规模化应用扫除障碍 [4] 技术认可与行业影响 - 公司的技术实力获国际同行认可,Meta在2025年10月的强化学习论文中正式采用了公司原创的CISPO损失函数和FP32 Head技术,标志着中国在AI核心算法领域具备国际竞争力 [5] - 低成本、高性能的AI模型为金融、制造、软件开发等领域的产业升级提供新可能,如智能投研、优化生产流程、提升编码效率等 [5] - 公司推出为期两周的全球API免费调用活动及国内版MiniMax Agent限时免费服务,进一步降低使用门槛,加速技术普及 [5] 行业发展趋势 - 中国大模型技术实现从“可用”到“好用”的重要跨越,从DeepSeek R1到Qwen3、GLM4.6等开源模型持续创新,多模态领域亦有突破,中国AI力量在国际舞台影响力日益重要 [5] - 模型的全面开源体现了中国AI企业的技术自信,将促进全球AI技术的交流与发展 [6]
DeepSeek, Qwen AI Besting ChatGPT, Grok, Gemini In AI Crypto Trading Challenge
Yahoo Finance· 2025-11-01 21:54
比赛概况 - 由专注于金融市场的AI研究实验室Nof1发起一项名为Alpha Arena的AI模型加密货币交易竞赛 [1][2] - 竞赛于10月17日开始,旨在测试流行AI模型的投资能力 [2] - 各模型获得1万美元的相同起始资金、相同的提示和输入数据,任务是在去中心化交易所Hyperliquid上进行加密货币交易以实现回报最大化 [2] - Alpha Arena挑战赛将于11月3日结束,排名可能仍有显著变动时间 [6] 参赛模型表现 - 截至报道时,中国模型DeepSeek V3.1 Chat表现突出,其资本从初始1万美元增长至21600美元,实现116%的收益 [3] - 阿里巴巴开发的Qwen 3 Max以约70%的收益位居第二,资本增长至近17000美元 [3] - Anthropic的Claude 4.5 Sonnet和xAI的Grok 4分别以11%和4%的收益率争夺第三和第四名 [4] - 表现最差的是谷歌的Gemini 2.5 Pro和OpenAI的ChatGPT 5,亏损均超过60% [4] - GPT-5和Gemini 2.5 Pro在测试中频繁选择较小的头寸规模,表现得不如以往测试中的竞争对手激进 [4] 表现差异分析 - Monad区块链游戏生态系统负责人认为,中国模型可能因为在面向亚洲的论坛上接受了更多加密原生对话的训练而具有优势 [5] - DeepSeek据报道是一家量化交易公司的副业项目 [5] - 另有观点认为Alpha Arena挑战赛的结果遵循随机游走模型,即平均交易头寸将收敛于起点 [6] AI交易能力研究背景 - Alpha Arena是众多测试AI模型交易能力的实验和研究之一 [7] - 斯坦福大学研究人员在6月通过仅使用公开信息训练的模型,能够在30年期间击败93%的基金经理,平均超出600% [7]
全球顶级AI模型混战:中国AI包揽冠亚军 DeepSeek逆袭登顶
新浪财经· 2025-10-29 02:25
比赛概况与结果 - 全球顶级AI模型在nof1ai平台进行为期10天的金融实战,各获1万美元本金在Hyperliquid去中心化交易所自主交易主流加密货币,无人工干预或策略预设 [3] - 中国AI模型DeepSeek实现逆袭登顶,截至10月27日10点账户资金达22304美元,10天净赚12304美元,收益率达12304% [5] - 另一中国模型阿里通义千问Qwen3表现稳健位列第二,截至10月27日10点账户资金达20708美元,收益率为10708%,10天净赚10708美元 [5] - 美国AI模型集体陷入亏损,Claude 45 Sonnet和Grok 4亏损10%至17%,Gemini 25 Pro亏损超62%账户剩3800美元,GPT 5亏损超70%账户跌至2761美元 [6] 中国AI模型成功因素 - DeepSeek采用多元化投资组合并进行有效风险控制,使用10倍至20倍适度杠杆提升收益同时降低爆仓风险,坚持低频精准交易方式避免情绪化交易 [4] - DeepSeek开发团队幻方量化拥有深厚量化交易背景,模型继承传统量化交易风险控制基因,通过分散投资、动态调整仓位将回撤控制在最低限度 [4][7] - 阿里通义千问Qwen3展现高频优化与实时学习能力,能在高频市场反馈中持续自我优化,通过实时强化学习调整策略 [7] - 中国模型在交易中展现严谨量化模型与趋势判断敏锐性,在震荡期控回撤,在上涨期抓波段,实现收益与风险平衡 [5] 美国AI模型失误分析 - 美国模型出现方向判断错误,10月19日至22日市场处于上涨通道时,Gemini却选择做空六种加密货币导致亏损持续扩大 [8] - 美国模型缺乏止损机制,当亏损出现时没有果断止损而选择死扛,导致亏损加大 [8] - 美国模型存在情绪化决策,曲线剧烈波动与持仓组合混乱暴露决策盲目性,重仓清仓反复缺少章法 [6][8] - 美国模型持仓策略混乱,GPT和Grok多单空单混杂,Gemini做空六种加密货币背离市场趋势 [6] 行业意义与影响 - 此次实战从普通AI能力测试演变为中美AI实力巅峰对决,标志着全球AI发展进入实战PK新阶段 [4][8] - 实战揭示不同AI模型在真实市场中的决策底层逻辑,展现AI从办公室辅助工具走向实战利器的巨大潜力 [7][8] - 中国AI模型用12304%和10708%的收益与美国模型平均超40%的亏损形成鲜明对比,体现中美AI实战能力差距 [8]
AI 全球“斗蛐蛐”,中国队胜出
虎嗅APP· 2025-10-28 21:33
比赛核心观点 - 一场由美国实验室Nof1组织的真实资金AI投资比赛结果显示,中国团队开发的AI模型(幻方DeepSeek V3.1 Chat和阿里Qwen 3 Max)表现优异,显著领先于国际知名模型如GPT-5和Gemini 2.5 Pro [4] - 比赛本质是针对AI模型交易能力的压力测试,核心在于观察不同AI在真实波动市场中的策略有效性、风险控制及执行纪律 [5] - 在真实的交易场景中,强大的语言能力不足以保证成功,对市场的理解更为重要,市场是检测AI智能的终极测试 [18] 各AI模型表现差异分析 - **幻方DeepSeek (DS)**:表现稳健,采用全仓全覆盖做多策略,杠杆10到15倍,相当于持有A6指数,不换手不止损,夏普比率最高,平均持仓时间长达49小时,总回报率达37.46% [9][13][24][25] - **阿里Qwen**:收益曲线在比赛后期陡升,一度超越DS位居第一,其策略是看准上涨信号后满仓高倍杠杆做多单一最强资产,80%以上收益来自一笔交易,但夏普率仅0.338,风险极高 [14][15][25] - **GPT-5**:表现最差,亏损率最高时超过75%,存在频繁交易、小赢大亏、胜率低的问题,策略矛盾且未设置止损线,被形容为“交易风格神似散户” [4][13][19] - **Gemini 2.5 Pro**:亏损率达70%左右,策略漂移不定,频繁开仓平仓,先空后多,产生高额交易成本并错过主升浪,最大收益金额约为最大损失的一半 [10][12][19] - **Claude 4.5 Sonnet**:过于谨慎,分析能力强但执行犹豫,经常调仓失败、反复止损,收益曲线在零轴上下反复,在趋势明确市场中保守成为包袱 [9][13][20] - **Grok 4**:初期全多头布局且激进,但持仓中偏爱与马斯克叙事红利相关的虚拟资产,缺乏基本面支撑,市场情绪退潮后快速回吐收益 [9][13][22] AI表现差异的根本原因 - 训练数据的影响是关键,DeepSeek背后的幻方量化在中国A股市场积累了海量的实战交易数据和策略,而OpenAI和Google的训练数据更偏向学术论文和网络文本,对实盘交易理解不足 [26][27] - 模型架构侧重不同,DS可能在训练时特别优化了时间序列预测能力,而GPT-5可能更擅长处理自然语言,导致在面对价格图表等结构化数据时表现迥异 [27] 对普通投资者的启示 - 从长期投资角度看,幻方DeepSeek的多头分散策略更具可持续性,普通投资者应避免过度交易,并谨慎使用杠杆 [28] - 若判断市场处于上行大周期,应学会忽略中途的小幅震荡,稳持头寸是更优解,而非频繁交易 [29] - AI的优势在于理性,能在极短时间内分析海量信息并提供结构化判断,但其无法预测未来,也难以捕捉市场的动态博弈与隐性信号,面对黑天鹅事件反应滞后 [31][32] - AI应作为成熟投资者的决策辅助工具,能高效用好AI的人本身需具备较强的投资素养,可提供专业提示词让AI生成个性化策略 [34][35]
AI 全球“斗蛐蛐”,中国队胜出
虎嗅· 2025-10-28 16:44
比赛概况与核心观点 - 美国实验室Nof1启动一项金融实战比赛,向六个顶尖AI大模型各提供10,000美元真实资金,在虚拟货币永续合约市场进行为期约两周的投资对决,核心在于测试AI在真实波动市场中的策略有效性、风险控制及执行纪律[1][2] - 比赛结果显示,来自中国的模型表现优异,幻方DeepSeek V3.1 Chat和阿里Qwen 3 Max收益率遥遥领先,而谷歌Gemini 2.5 Pro和OpenAI GPT-5则一度亏损约70%[1][9] - 此次比赛与以往回测不同,是让AI直面真实、动态、复杂的市场环境,实践是检验真理的唯一标准,市场是检测AI智能的终极测试[13] 各AI模型表现与策略分析 - **幻方DeepSeek (DS)**:采取稳健的量化策略,全仓分散做多并持有类似自建指数,杠杆10-15倍,预留现金,平均持仓时间长达49小时,夏普比率最高,账户价值达$21,566,收益率+115.66%[6][15][19][20] - **阿里Qwen**:策略激进,看准机会即满仓高倍杠杆押注单一资产,现金预留极少,80%以上收益来自一笔交易,夏普率0.338,账户价值$16,817,收益率+68.17%,但高收益伴随极高波动性[10][11][15][21] - **Claude 4.5 Sonnet**:分析能力强但执行犹豫,频繁调仓失败和止损,风格保守像基金经理,胜率较高但收益一般,账户价值$11,312,收益率+13.12%[2][9][15][17] - **Grok 4**:交易风格激进,全多头布局,但对与马斯克叙事相关的虚拟资产偏好可能拖累表现,收益曲线大幅波动,账户价值$10,450,收益率+4.5%[6][9][15][18] - **谷歌Gemini 2.5 Pro**:策略漂移摇摆不定,频繁开仓平仓产生高额交易成本,小赢大亏,最大收益金额约为最大损失的一半,账户价值$3,867,收益率-61.33%[7][8][15] - **OpenAI GPT-5**:存在频繁交易和小赢大亏问题,胜率低,策略矛盾且未设止损,多次爆亏严重侵蚀本金,亏损率最高时超过75%,账户价值$3,825,收益率-61.75%[9][15][16] 表现差异原因分析 - 模型表现差异与背后平台训练数据密切相关,DeepSeek背后的幻方量化在中国A股市场积累了海量实战交易数据和策略,对“好的交易决策”理解更接地气[21] - OpenAI和Google的训练数据可能更偏向学术论文和网络文本,对实盘交易理解不足,而DeepSeek可能在训练时特别优化了时间序列预测能力,GPT-5更擅长处理自然语言[21][22] - 在真实交易场景中,强大的语言能力不足以保证成功,对市场的动态理解更为关键[14] 对投资行业的启示 - 从长期投资角度看,若无信心成为顶尖交易员,DeepSeek的多头分散策略更具可持续性,普通投资者应避免过度交易并谨慎使用杠杆[23] - 若判断市场处于上行周期,应学会忽略小幅震荡,稳定持有相比频繁交易是更优解[24] - AI的优势在于理性、无情绪化,能快速处理海量信息并提供结构化判断,但其短板是无法预测未来,难以捕捉市场动态博弈与隐性信号,面对黑天鹅事件反应滞后[26] - 能高效运用AI辅助投资的人本身已是成熟投资者,AI仅是决策辅助工具,理性的工具与人的智慧相结合才是未来最佳交易策略[27][28][29]
实测用 AI 炒币,谁赚得最多?
搜狐财经· 2025-10-27 13:39
实验概述 - 初创公司Nof1发起名为Alpha Arena的实验,让多个AI模型在真实数字货币市场进行实盘交易[1] - 每个AI模型获得一万美元启动资金,交易收益、持仓及交易逻辑均实时公开[4] - 实验采用真实交易而非模拟盘,是AI界的"Battle Royale"[4] 参赛阵容与初期表现 - 参赛AI包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet、马斯克的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat[6] - DeepSeek开盘即满仓做多BTC、ETH、DOGE,几小时内盈利近一千美元,收益率达10%[6] - GPT-5表现谨慎,仓位分散且杠杆极低,在行情上涨时仍犹豫不决[8] - Gemini频繁换仓、追涨杀跌,每分钟都在操作,手续费高且亏损近一半[8] 交易风格与人格特征 - DeepSeek交易冷静,日志显示"条件未触发,继续持仓"[9] - Claude分析严谨,日志如论文般提及"根据链上指标与宏观趋势,BTC短线或反弹,但风险依旧"[11] - Grok风格激进,日志显示"趋势没完,拉满仓干"[11] - Gemini即使爆仓仍坚持原计划,日志称"止损条件未满足,计划不变"[11] 中期战况变化 - 截至21日中午,Gemini净值排名垫底,但21日下午表现回暖成功超越GPT-5[15] - 榜尾顺序变为Gemini倒数第二,GPT-5正式垫底[15] - 22日下午开始,Qwen3 Max与DeepSeek展开激烈拉锯战,两者互有领先[15] 最终排名与市场反应 - 截至26日中午12点,Qwen3 Max以微弱优势超越DeepSeek登顶第一[17] - Grok和Claude位列中游,Gemini回升但仍倒数第二,GPT-5垫底[19] - 网友热议DeepSeek被反杀,认为幻方AI也有失利之时[20] - 有分析指出样本太少偶然性大,建议重复100次取平均成绩[21] 实验意义与行业影响 - 实验是AI首次用真金白银面对真实、混沌、不可控的市场环境[22] - 不同于传统语言分数比拼,此次考核的是AI在不确定性中生存的能力[22] - 实验被视为人机决策的对照实验,每个AI都像人类情绪的镜像[22] - 类比DeepMind下围棋开启AI强化学习新纪元,此次实验可能让AI进入最复杂的博弈场——市场[24] - 实验将于11月3日迎来最终收官[24]
全球 6 大顶级 AI 实盘厮杀,Deepseek 三天收益爆赚36%傲视群雄
搜狐财经· 2025-10-22 08:19
实验概述 - Nof1组织了一场为期三天的真实交易对决,为6个顶级大语言模型各提供1万美元资金,在Hyperliquid的去中心化交易所进行加密货币永续合约交易[4] - 参赛模型包括Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4和阿里通义的Qwen 3 Max[4] - 实验采用完全自主的交易方式,使用真实资金在真实市场中运行,旨在检验模型在真实市场环境下的交易能力[5][6] 交易策略与执行 - DeepSeek模型制胜关键在于一套结构清晰且执行严格的交易策略,所有模型接收相同的简单交易指令,不涉及复杂的技术分析[9] - DeepSeek严格遵循指令核心原则:将资金分散投资于以太坊ETH、比特币BTC等六种主流加密资产,有效规避单一资产价格剧烈波动风险[10] - DeepSeek采用温和的交易杠杆控制风险敞口,并为每笔交易设置明确止损点并严格执行,快速退出亏损头寸,让盈利交易继续发展[10] 模型表现对比 - DeepSeek模型在交易对决中表现优异,其成功并非偶然[9] - Grok 4模型表现强劲,以30%的收益率紧随DeepSeek之后[10] - 其余参赛模型均因各类失误未能取得理想成绩,部分模型在执行层面出现问题,如订单执行失败或因平台延迟错失交易信号[10] - 一些模型在策略解读上出现偏差,有的过度谨慎错失市场良机,有的策略过于激进在上涨市场中采取做空头寸导致资金快速回撤[10] 表现差异根源 - 各模型表现的差异源于对指令的执行能力、风险处理能力和交易管理能力[10] - 实验凸显了不同大语言模型在理解并执行交易指令、风险控制和交易纪律方面的能力差异[10]