DeepSeek V3.1
搜索文档
Kimi杨植麟称“训练成本很难量化”,仍将坚持开源策略
第一财经· 2025-11-11 20:04
公司战略与产品发布 - 月之暗面Kimi公司近半年持续投入开源模型研发与更新,并于11月6日发布最新开源思考模型Kimi K2 Thinking [3][6] - 公司未来很长一段时间内将坚持开源策略,重点推进Kimi K2 Thinking模型的应用与优化 [6][8] - 公司在优先发展文本模型的前提下兼顾多模态模型推进,避开与OpenAI等头部厂商在AI浏览器等具体赛道的直接竞争 [8] - 公司尝试通过架构创新、开源策略与成本控制建立差异化优势 [8] 模型训练成本与性能 - 有消息称Kimi K2 Thinking模型的训练成本为460万美元,低于DeepSeek V3模型的560万美元和OpenAI GPT-3的数十亿美元 [3][6] - 公司CEO杨植麟回应称460万美元并非官方数字,由于大部分投入花在研究与实验上,训练成本很难量化 [4][6] - 针对模型推理长度过长、榜单成绩与实际体验不符的质疑,公司表示现阶段优先考虑绝对性能,token效率将在后续改善 [4][7] - 榜单高分与实测的脱节问题预计在模型通用能力补齐后被逐渐消解 [4][7] 行业竞争与市场表现 - 最新一周OpenRouter模型调用榜单前二十名中,中国开源模型产品占据五席,包括MiniMax M2、DeepSeek V3、GLM4.6、DeepSeek V3.1、DeepSeek V3.2 Exp [4][7] - Kimi模型因OpenRouter平台接口问题,目前只能以API形式被使用 [4][7] 技术资源与基础设施 - 公司团队使用携带InfiniBand网络互连技术的H800 GPU芯片支持持续的模型更新与庞大训练量 [4][7] - 公司承认所使用的GPU性能比不上美国的高端卡,数量也处于劣势,但强调每张卡都被用到了极致 [4][7]
Kimi杨植麟称“训练成本很难量化”,仍将坚持开源策略
第一财经· 2025-11-11 18:35
公司战略与产品进展 - 公司近期发布最新版本开源思考模型Kimi K2 Thinking [1] - 公司CEO回应称模型训练成本460万美元并非官方数字 因大部分投入花在研究与实验上导致成本难以量化 [1] - 针对模型推理长度过长及榜单成绩与实际体验不符的质疑 公司表示现阶段优先考虑绝对性能 token效率与榜单脱节问题将在后续改善 [1] - 公司未来很长一段时间内仍将坚持开源策略 重点推进Kimi K2 Thinking模型的应用与优化 [4] - 公司在优先发展文本模型的前提下兼顾多模态模型推进 尝试通过架构创新 开源策略与成本控制建立差异化优势 [4] 行业竞争格局 - 中国开源大模型在国际市场调用量显著 OpenRouter榜单前二十名中中国开源模型占据五席 包括MiniMax M2 DeepSeek V3 GLM4.6等 [2] - 公司产品因OpenRouter平台接口问题 目前仅能以API形式被使用 [2] - 行业头部模型训练数据量庞大 榜单显示Grok Code Fast 1训练token达1.36T 而Claude Sonnet 4.5为649B tokens [4] 技术资源与基础设施 - 公司团队使用携带InfiniBand技术的H800 GPU进行模型训练 尽管其性能比不上美国高端卡且数量处于劣势 但每张卡均被极致利用 [2]
2026年投资峰会速递:AI产业新范式
华泰证券· 2025-11-10 20:07
行业投资评级 - 科技行业评级为“增持”(维持)[7] - 计算机行业评级为“增持”(维持)[7] 核心观点 - AI产业正经历从模型、训练到应用的全方位范式革新,行业演进加速 [2] - Scaling Law 2.0时代下,合成数据与Mid Training范式重塑模型演进路径,算力扩张仍是核心增长引擎 [2][3] - AI应用商业化步入规模化阶段,Agent能力与交易闭环融合带动产业落地加速 [2][6] 模型层:算力与数据驱动演进 - 算力扩张是行业核心增长引擎,2010-2024年代表性模型训练算力年均增长4-5倍,头部模型达9倍水平 [3][13] - 合成数据持续扩大训练资源池,典型开源模型训练数据常见于10-15万亿tokens,头部厂商通过新方法持续扩容,例如阿里Qwen系列从18万亿tokens提升至36万亿tokens [3][12] - 预计前沿模型单次完整训练成本或在2027年达到十亿美元量级 [3][13] 训练层:Mid Training范式突破 - Mid Training成为Scaling Law 2.0重要标志,通过将强化学习前移至中间环节,实现算力对数据的自我生成与最优分配 [4][16] - 该范式在多智能体辩论等机制下生成数据量远超人工标注,并通过动态权重分配提升强化学习训练质量与数据利用率 [4][16] - Mid Training的应用有望突破传统Scaling Law下的性能边界,打开模型能力上限 [4][16] 智能体层:架构标准化趋势 - GPT-5以统一架构实现快思与深思的自适应协同,并通过实时路由器按任务复杂度动态分配算力资源 [5][19] - 该“统一系统”范式代表行业向“多模型一体化、动态资源分配”方向演进,DeepSeek V3.1与Grok 4 Fast等产品快速跟进验证此趋势 [5][19] - 该架构有望显著提升智能体在复杂场景中的响应效率与稳定性 [5] 应用层:商业化规模化加速 - 头部厂商战略重心从模型能力转向商业化生态构建,OpenAI推出Agentic Commerce Protocol,使AI Agent具备直接交易能力,实现从“推荐”到“结算”的全链路闭环 [6][22] - 全球AI应用正经历产品化(2023)→商业化试点(2024)→规模化落地(2025)三阶段演进 [6][25] - 海外厂商已进入规模化放量初期,国内厂商受益于DeepSeek-R1等模型突破,应用节奏显著加快,部分AI应用(如深度研究、企业问数)已具备大规模商业化能力 [6][26] - Agent与交易协议的深度结合、ROI体系的持续明晰,正推动AI应用产业价值释放进入加速期 [6]
华尔街之狼,与AI共舞
36氪· 2025-10-28 16:05
比赛概况 - Alpha Arena实验室于2025年10月17日至11月3日举办实时加密货币AI交易竞赛,由Jay Azhang创办[1] - 比赛规则为所有AI模型获得相同初始资金和实时数据源,在无人类干预下自主决策交易,包括策略生成、仓位管理和风控设置[1] - 设置基准选手采用简单买入并持有BTC策略,用于对比验证AI模型的收益表现[2] - 为增加曝光度引入第三方预测市场Polymarket,观众可对获胜AI下注,形成元赌局[3] - 整个过程公开透明,nof1.ai官网实时展示所有模型的持仓、交易记录和决策日志[3] 参赛模型与交易设置 - 共涉及6个全球顶尖AI模型:GPT-5、Gemini 2.5 Pro、Grok-4、Claude Sonnet 4.5、DeepSeek V3.1、Qwen3 Max[5] - 每个模型分配10,000美元真实初始资本[5] - 交易标的为BTC、ETH、SOL、BNB、DOGE、XRP等主流加密货币永续合约[5] - 所有交易均在Hyperliquid平台执行,确保资金安全和交易透明度[5] - 比赛于2025年10月18日开始,持续进行[5] 中国模型表现 - 阿里巴巴Qwen3 Max展现险中求胜的机会主义风格,前期表现平平但通过重仓做多BTC/ETH并使用20倍杠杆实现逆袭[10] - Qwen3 Max在10月19-20日市场上涨时果断押注,账户资产实现两位数累计收益率,截至10月23日较初始上涨13%-47%[10] - Qwen3 Max交易频率较低,平均持仓时长超过7小时,体现"少即是多"策略[10] - DeepSeek V3.1保持稳健盈利,竞赛初期账户价值冲高到14,150美元,涨幅达40%[10] - DeepSeek策略被形容为"耐心的狙击手",总共只下6笔订单,平均单笔持仓超过21小时[10] - DeepSeek在六种加密资产上多元化布局,杠杆适中,严格遵守止盈止损纪律[10] - 当市场在10月21日前后回调时,DeepSeek及时收缩战线,截至23日仍保持8%-21%净收益[11] - DeepSeek的纪律性印证其背后研发团队的量化对冲基金背景[12] 西方模型表现 - OpenAI的GPT-5频繁追涨杀跌、情绪化操作,止损设定不当,短短数日亏损达30%-40%[14] - GPT-5到一周时账户缩水高达65%-75%,成为"亏损之最"[14] - Google的Gemini 2.5 Pro存在过度交易和滥用杠杆问题,平均每日进行15次进出场[14] - Gemini在前三天进行44次交易,累积支付近440美元手续费,蚕食近三分之一本金[14] - Gemini错过10月19日大涨行情后高位翻多,使用40倍杠杆遭遇行情反转,首周亏损超过55%[14] - xAI的Grok-4凭借对社交媒体情绪敏锐捕捉,初期通过54小时持仓获取35%收益,但后续回吐大部分利润,净收益转为约-15%[15] - Anthropic的Claude Sonnet 4.5全程谨慎保守,只下3单,前期曾有24%涨幅但最终收益转负约-17%[19] - Claude虽盈利不多,但一度创造所有模型中最优夏普比率,体现"稳健不过山,有时胜过猛盈利"[19] 市场环境与实验意义 - 加密货币市场是典型零和博弈,信息极度不对称,价格每分每秒波动,没有唯一答案[7] - 传统AI评估在静态环境中测试,而加密市场要求AI在动态环境中应对风险[6][7] - 基准的"买入并持有BTC"策略在此期间盈亏基本持平,未大幅跑输或跑赢AI模型[20] - 实验展示AI在无标准答案世界中试错的能力,为金融领域智能应用提供新视角[20]
现在,最会赚钱的AI是Qwen3,全球六大模型厮杀,Top 2来自中国
36氪· 2025-10-23 20:49
比赛结果与排名 - Qwen3 Max以14,438美元账户价值位列第一,收益为4,438美元,回报率+44.38% [1][9][11] - DeepSeek V3.1以12,092美元账户价值排名第二,收益为2,092美元,回报率+20.92% [9][11] - Claude 4.5 Sonnet账户价值8,780美元,亏损1,220美元,回报率-12.2% [10][11] - Grok 4账户价值8,301美元,亏损1,699美元,回报率-16.99% [10][11] - Gemini 2.5 Pro账户价值3,946美元,亏损6,054美元,回报率-60.54% [10][11] - GPT-5账户价值2,852美元,亏损7,148美元,回报率-71.48% [10][11] 比赛进程与表现 - 10月21日所有模型经历暴涨,22日凌晨集体大跌 [3] - Qwen3 Max在22日下午先后超越Grok 4和DeepSeek V3.1,首次升至第一 [7] - 23日上午Qwen3 Max再次反超DeepSeek V3.1,优势持续扩大 [3][8] - Qwen3 Max采用稳健的"快准狠"操盘策略实现逆袭 [8] - Gemini 2.5 Pro和GPT-5从比赛第二天开始持续亏损,表现稳定 [24] 交易行为分析 - Gemini 2.5 Pro交易次数达102次,GPT-5为42次,属于高频交易 [26] - Qwen3 Max交易22次,Claude 4.5 Sonnet交易12次,Grok 4交易10次,DeepSeek V3.1仅交易9次 [26] - Gemini 2.5 Pro在交易中表现出情绪化特征,类似人类交易行为 [15] 比赛规则与设置 - Alpha Arena由Nof1实验室组织,为六大模型各提供1万美元初始资金 [18] - 所有模型在Hyperliquid交易所使用相同提示词和输入数据进行交易 [20] - 模型需根据实时价格、MACD、RSI等技术指标自主做出交易决策 [20] - 比赛目标为"最大化风险调整后的收益",要求模型独立生成Alpha、决定仓位、把握时机和管理风险 [20] 行业意义与影响 - 金融市场被视为AI能力的终极试金石,是比游戏更复杂的训练环境 [29][30] - 市场环境会随AI能力提升而同步增加难度,考验模型在不确定性中的生存能力 [30] - Qwen3 Max的胜利体现了国产大模型在高风险动态金融环境中的领先实力 [32][33] - 这次比赛结果被视为AI在真实世界中生存能力的重要里程碑 [32]
DeepSeek outperforms AI rivals in 'real money, real market' crypto showdown
Yahoo Finance· 2025-10-21 17:30
实验概况 - 美国研究公司Nof1发起一项名为Alpha Arena的真实市场加密货币交易实验 旨在评估不同大型语言模型的投资能力 [1] - 实验于周五启动 将持续至11月3日 六款模型各自获得10,000美元初始资金 在去中心化交易所Hyperliquid上投资六种加密货币永续合约 包括比特币和solana [1][2] - 实验目标是使基准测试更贴近现实世界 市场具有动态性、对抗性、开放性和不可预测性 能以静态基准测试无法做到的方式挑战人工智能 [3] 模型表现 - 截至周二下午2点 DeepSeek的V3 1模型表现最佳 实现10 11%的利润 而OpenAI的GPT-5模型表现最差 亏损达39 73% [2] - 参与实验的首批模型还包括阿里巴巴云的Qwen 3 Max、Anthropic的Claude 4 5 Sonnet、Google DeepMind的Gemini 2 5 Pro和xAI的Grok 4 [2] - 根据实验联合创始人所述 DeepSeek和Grok是迄今为止表现最好的两个模型 [6] 运作机制 - 模型的既定目标是最大化风险调整后收益 它们基于相同的提示和输入数据(如资金费率、交易量)自主执行交易 [4] - 模型在每次交易背后自我生成的“推理”会显示在网站上 公众可通过每个模型的专属Hyperliquid钱包地址追踪其交易 [4] - 在预测市场Polymarket上 DeepSeek以41%的胜率领先 截至周二下午2点 投注额达到29,707美元 [7] 市场反应与背景 - 中国初创公司DeepSeek于2023年由对冲基金经理High Flyer-Quant分拆出来 其在新基准测试中的成功引发市场猜测 认为其模型可能接受了高质量金融数据的训练 [6]
赚钱,DeepSeek果然第一,全球六大顶级AI实盘厮杀,人手1万刀开局
36氪· 2025-10-21 09:35
实验概述 - 由nof1ai发起的Alpha Arena实验旨在将顶级大语言模型置于真实金融市场进行交易能力测试 [1] - 实验为每个模型提供10000美元初始资金在相同市场数据和交易指令下进行实盘交易 [4] - 参与模型包括OpenAI GPT-5、谷歌Gemini 25 Pro、Anthropic Claude 45 Sonnet、xAI Grok 4、阿里Qwen3 Max和DeepSeek V31 Chat [3] 最终排名与业绩 - DeepSeek V31以账户价值13677美元排名第一实现3677美元盈利回报率达3677% [6] - Grok 4以账户价值13168美元排名第二实现3168美元盈利回报率达3168% [6] - Claude Sonnet 45以账户价值11861美元排名第三实现1861美元盈利回报率达1861% [6] - Qwen3 Max以账户价值10749美元排名第四实现74922美元盈利回报率达749% [6] - GPT-5以账户价值7491美元排名第五亏损2509美元回报率为-2509% [6] - Gemini 25 Pro以账户价值6787美元排名第六亏损3213美元回报率为-3213% [6] 交易行为分析 - Gemini 25 Pro交易次数达45次远高于其他模型但亏损最为严重 [6][43] - GPT-5交易次数为10次Qwen3 Max交易6次DeepSeek交易5次Claude交易3次Grok仅交易1次 [41][42] - 高交易频率并未带来更好业绩显示过度交易可能导致亏损 [43] 持仓策略分析 - DeepSeek V31采用多元化持仓策略同时持有XRP、DOGE、BTC、ETH、SOL、BNB等多种加密货币杠杆倍数在10-15倍之间 [15] - Grok 4持仓结构与DeepSeek类似但包含空头XRP仓位显示不同风险偏好 [15] - Qwen3 Max专注于BTC单币种持仓采用5倍杠杆可用现金仅11699美元 [19] 市场表现动态 - DeepSeek V31和Grok-4初期出现亏损后迅速反弹并持续上涨 [32] - Claude Sonnet 45前期稳定19日晚出现小高峰但20日清晨回落 [34] - GPT-5和Gemini 25 Pro初期上涨后持续下跌GPT-5在20日凌晨企稳而Gemini继续下跌 [36][37] - 20日中午除GPT-5外所有模型均迎来上涨DeepSeek和Grok创历史新高 [39][40] 行业意义 - 金融市场被视为智能的终极试金石相比传统静态基准更能体现实时决策能力 [44][45] - 该实验代表从游戏环境测试向真实世界应用的重要转变类似DeepMind通过游戏推动AI发展的理念 [46] - 市场作为由信息和情感构成的生命系统为AI提供了近乎无限的训练数据环境 [46]
HLE“人类最后考试”首次突破60分,Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
36氪· 2025-09-28 20:05
核心技术突破 - Eigen-1多智能体系统在HLE Bio/Chem Gold测试集上取得历史性突破,Pass@1准确率达到48.3%,Pass@5准确率飙升至61.74%,首次跨越60%大关 [1] - 该成绩显著超越谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)[1] - 系统基于开源模型DeepSeek V3.1搭建,通过三大创新机制实现质的飞跃 [2][6] 技术创新机制 - Monitor-based RAG机制实现隐式知识增强,将token消耗减少53.5%,工作流迭代次数减少43.7% [10][25] - 分层解决方案精炼(HSR)采用"锚点—修复"结构,打破传统多智能体系统的"民主投票"机制 [12] - 质量感知迭代推理(QAIR)根据解答质量自适应调整迭代深度,在效率与准确率之间取得平衡 [15] 多基准测试表现 - 在SuperGPQA生物学(Hard版)测试中,Pass@1达到69.57%,Pass@5达到78.26% [17] - 在TRQA文献理解测试中,Pass@1达到54.65%,Pass@5达到79.07% [17] - 相比其他智能体系统,Eigen-1在多个基准测试中均展现全面优势 [17] 技术架构优势 - 错误模式分析显示92.78%的错误涉及推理过程问题,88.66%涉及知识应用问题,凸显知识推理整合的核心挑战 [18] - 完整系统准确率达到48.3%,同时保持高效资源利用(218.9K tokens,53.4步骤) [20][22] - 消融实验证明各组件必要性,移除Monitor导致token消耗激增至461.3K,移除HSR或QAIR分别导致准确率降至44.8%和43.7% [20][21] 系统设计洞察 - 研究发现检索型任务应鼓励解法多样性(斜率0.369),而推理型任务应倾向早期共识(斜率0.851) [23] - Eigen-1在提升准确率的同时减少53.5%的token消耗,工作流迭代次数从94.8步降至53.4步 [25] - 该系统突破预示着AI辅助科学研究的新范式,将加速从基础研究到应用转化的全过程 [27]
HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
量子位· 2025-09-28 19:54
技术突破与性能表现 - Eigen-1多智能体系统在HLE Bio/Chem Gold测试集上实现历史性突破,Pass@1准确率达48.3%,Pass@5准确率飙升至61.74%,首次跨越60分大关[1] - 该系统性能远超竞争对手,显著高于谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)[1] - 在SuperGPQA生物学(Hard版)测试中,Pass@1达69.57%,Pass@5达78.26%;在TRQA文献理解测试中,Pass@1为54.65%,Pass@5高达79.07%[22][27] 技术架构创新 - 系统完全基于开源模型DeepSeek V3.1搭建,通过三大创新机制实现质的飞跃[3] - Monitor-based RAG机制将token消耗减少53.5%,工作流迭代次数减少43.7%,同时保持更高准确率,解决了传统RAG系统的"工具税"问题[11][37] - 分层解决方案精炼(HSR)采用"锚点—修复"结构,通过逻辑补全、数值修正、方法替换、表达优化四种维度提升解决方案质量[16] - 质量感知迭代推理(QAIR)根据解答质量自适应调整迭代深度,高质量解答可提前收敛,低质量解答触发更多探索[20] 基准测试重要性 - HLE(人类最后考试)涵盖数学、自然科学、工程学、人文社科等百余领域共3000道博士级难题,被视为AI知识推理的终极试炼[5] - HLE Bio/Chem Gold是HLE的黄金标准子集,包含149道经过领域专家人工审核和纠正的题目,排除了可能存在歧义或错误答案的问题[6] - 传统基准如MMLU、GPQA等已逐渐失去区分力,因大模型纷纷"卷到90分"[5] 错误分析与技术洞察 - 错误模式分析显示92.78%的错误涉及推理过程问题,88.66%涉及知识应用问题,且两者存在大量重叠[24] - 科学推理的核心挑战在于如何将知识与推理无缝整合,而非单纯的知识检索或逻辑推理[25] - 在信息检索任务中,解决方案多样性与准确率呈较弱正相关(斜率0.369);而在推理任务中,一致性与准确率呈强正相关(斜率0.851)[33] 组件贡献量化 - 增量构建实验显示,基线系统无外部知识时准确率仅25.3%,加入显式RAG后提升至41.4%,但工作流步骤从43.4激增至94.8[29] - 完整系统(包含所有组件)准确率达48.3%,token消耗218.9K,步骤53.4,实现了准确率提升与资源消耗降低的双重优化[30][32] - 消融实验证明各组件必要性:移除Monitor导致token消耗激增至461.3K,步骤增至95.3;移除HSR或QAIR分别导致准确率降至44.8%和43.7%[30][31] 行业意义与发展前景 - 该突破预示着AI辅助科学研究的新范式,当AI能真正理解人类知识前沿的复杂问题时,将成为科学家的强大助手[39][40] - 基于开源模型的成功展示了开源生态在推动AI前沿发展中的重要作用[3][42] - 未来优化方向包括架构设计改进、向其他科学领域扩展以及技术整合到更广泛的科学工作流中[42]
2025人工智能产业十大关键词
机器人圈· 2025-09-26 17:29
文章核心观点 人工智能技术、应用、生态三维共振 智能原生新世界加速形成[1] 基础超级模型 - 2024年底至2025年8月大模型综合能力提升超过30% 集成思考与非思考模式[3] - 头部模型GPT-5/Grok4/DeepSeek V3.1/Claude Opus 4.1/Qwen3-235B-A22B展现三大特征:自主选择处理模式、理解推理数学能力提升、内置代码与工具调用能力[3][4] - 技术采用路由融合与面向智能体的强化学习 显著增强真实业务场景表现[6] - 对用户产生三方面影响:使用门槛降低、工作流工具调用精准度提升、训练数据供应需求变化[6] 自主性更强的智能体 - 方升智能体基准测试显示当前智能体可自主完成复杂任务但能力仍有提升空间[9] - 通信协议成为交互桥梁 Anthropic的MCP与谷歌A2A协议实现互补协同[12] - 智能体任务处理长度每7个月翻一番 未来可完成人类数天至数周任务量[12] - 产品形态逐步清晰 成为消费端与企业端数字员工初级形态[10] 走向实训的具身智能 - 本体从实验室走向真实赛场与训练场 推进行业场景试点验证[15] - 蔚来世界模型NWM在Banyan榕车型全量推送 强化追尾预防与障碍物识别[15] - 智元机器人GO-1端到端VLA模型实现擦桌子/倒水任务 Figure AI Helix支持物流分拣等技能[16] - 面临三大挑战:高质量数据缺口需百万小时机器人数据、模型泛化难、软硬协同控制不稳定[18] 萌芽中的世界模型 - 被视为通向AGI的核心路径 需具备四大核心能力:数据生成/动作解释/环境交互/场景重建[21] - 技术路线百花齐放:大模型增强/大模型+物理引擎融合/物理世界表征探索[22] - 面临定义争议/技术路线不清晰/应用范围局限三大挑战 目前仅自动驾驶领域有规模应用[22] - 参考技术包括Sora/Marble/JEPA/Genie3/Cosmos/HunyuanWorld等[22] AI正在重塑软件 - AI深度渗透软件开发全生命周期 开发测试环节保持高比例应用[25] - AI研发工具从Copilot向Pilot演进 2025年密集发布AI IDE与智能体工具[25] - 软件交互方式变革 对话/多模态/具身智能交互成为主流[25] - 商业模式重构 从订阅模式转向按Token消耗量计费的定量模式[28] 开放智算生态 - 2025年形成多层次开源开放生态 涵盖开源框架/通信库/算子库/计算平台/互联协议[30] - 国产硬件性能显著提升 DeepSeek R1模型部署精度与规模基本持平英伟达系统[30] - 软硬件协同优化案例:DeepSeek对英伟达硬件提改进建议 智谱GLM4.5基于昇腾环境微调[32] 面向行业的高质量数据集 - 行业数据集质量问题成为垂类模型落地核心瓶颈 内容密集性问题占比82.50%[35] - 需建立新型数据供应链 包括三大训练数据集:交互轨迹/偏好对齐/基准评测[38] - 三大原生基础数据集:基础支撑/过程埋点/外部交互[38] 开源成为标配 - 全球性能前25大模型中我国开源模型占9席 Huggingface累计下载量突破3亿次[40] - 基于国产开源模型的微调模型占比从2024年初10%大幅上升至2025年7月45%[40] - 国内AI开源社区托管模型38万个/数据集5.3万个 活跃开发者2.2万人占全球18.7%[42] - 商业模式采用"开源免费+高阶服务收费"策略 推动云服务与芯片需求增长[42] 缓解模型幻觉 - OpenAI理论研究确认幻觉是LLM统计学习必然产物 方升测试显示推理模型幻觉率维持在10%以上[44] - 大参数模型幻觉问题明显 72b参数模型幻觉率超过14%[44] - 供给侧采取四维措施:数据过滤筛查/双向自回归训练/不确定性评估/对比增强解码[46] - 用户侧四层应对:测试选型/领域数据微调/推理约束提示/输出双重核验[46] 人工智能国际公共产品 - 人工智能被纳入12个全球多边机制核心议题 中国/沙特/印尼/美国/俄罗斯国际合作活跃[49] - 产业界通过生态基建/工具赋能/服务模式创新推动全球化发展[51] - 面临跨境合规认证复杂/ESG评估体系模糊/数据跨境流动受限等挑战[51]