Workflow
DeepSeek v3.1
icon
搜索文档
当AI开始“查户口”,谁在为中国的科技公司兜底?
搜狐财经· 2025-09-23 23:46
Anthropic的禁令事件 - Anthropic于2025年9月突然宣布,所有由中国资本控股的公司,无论注册地,均被禁止使用其AI模型Claude [1] - 此次禁令并非基于性能或付费问题,而是基于资本“出身问题”,被描述为AI时代的“查户口” [1] - Claude是全球AI编程工具链的“标配”,许多创业公司依赖其进行写代码、修Bug和自动化测试等核心业务 [1] - 此举导致依赖Claude搭建核心系统的中国出海企业面临系统未来的不确定性,并引发对AI基础设施的信任崩塌 [2][4] AWS的战略反击与平台定位 - 在Anthropic发布禁令约两周后,AWS将阿里云的通义千问Qwen3和深度求索的DeepSeek v3.1上架至Amazon Bedrock平台,向全球客户开放一键调用 [5][6] - 与微软Azure深度绑定OpenAI、谷歌云优先推广Gemini、以及国内云厂商自建封闭生态不同,AWS采取了开放策略,将包括竞争对手在内的多种模型纳入其平台 [9][10][11][12] - AWS通过Amazon Bedrock平台汇集了来自AI21 Labs、Anthropic、Cohere、Meta、阿里云、深度求索等公司的众多模型,客户可按调用付费使用 [18] - 该策略的核心目的是掌控“模型分发权”或“渠道权”,通过成为全球AI模型的“天猫商城”来定义AI时代的权力结构,确保客户永远有选择权 [15][16][17][19] 对中国AI行业的影响 - AWS上架Qwen3和DeepSeek v3.1,使中国AI模型首次作为一级服务直接嵌入全球云服务体系,为中国大模型提供了关键的“出海船票” [20][23] - 此举意味着国际企业(如德国车企、新加坡金融科技公司、美国SaaS公司)可便捷地在其生产环境中调用中国模型,用于中文文档、代码审计或本地化功能 [22] - 中国AI技术因此得以通过主流商业渠道站上世界舞台,无需完全依赖传统的“关系”或“合作” [23] 行业竞争格局的演变 - Anthropic的禁令行为揭示了AI技术的地缘政治属性,模型可用性开始受到资本来源等非技术因素影响 [24][26] - AWS的反击行动展示了在冲突环境中维持“技术中立”和“选择自由”的商业模式,其平台定位类似于“数字时代的中立国” [24][25][27] - 云竞争的焦点正从计算、存储等基础资源转向对模型入口的控制权 [16][17]
一家营收千亿美元的公司,如何回应AI落地的策略问题
36氪· 2025-09-19 19:59
Amazon Bedrock产品策略与市场定位 - 产品核心理念为“Choice Matters”(选择大于一切),旨在为不同业务提供最契合的基础模型,模型选择多样性和灵活性是关键 [3] - 平台提供模型数量达二百余款,是市面竞品整体“供货”数量的两倍以上 [3] - 已成为应对行业波动、灵活多元化的MaaS(模型即服务)基础设施的几乎唯一答案,其策略对AI落地行业进程产生深远影响 [5][12] 基础模型行业竞争格局演变 - 2025年基础模型厂商竞争态势不断变化,不同模型针对不同地区的服务政策也存在差异,凸显了模型选型灵活性的实际意义 [3] - 早期行业推论认为大模型训练成本极高(万卡集群是入场券),闭源模型将主导市场,“百模大战”会收缩为少数巨头竞争 [4] - 另一技术侧推论认为大语言模型在数据和架构上进化空间有限,导致部分公司如百川智能等过早放弃基础模型技术探索,间接错过AI Agent红利 [4] 模型技术性能与迭代速度 - 大模型技术发展曲线依旧陡峭,市场选择丰富,基于单一模型构建的AI能力易被新技术突破所淘汰 [5] - 定制化To B AI解决方案在2025年技术迭代加速,例如因DeepSeek发布导致早期方案过时,后续又因Qwen3、Kimi K2、DeepSeek v3.1发布而再次更新,出现半年刷新三次的情况 [5] - DeepSeek-V3.1在多项基准测试中表现显著提升:SWE-bench Verified得分66.0,较DeepSeek-V3-0324的45.4提升45.4%;SWE-bench Multilingual得分54.5,较DeepSeek-V3-0324的29.3提升86.0%;Terminal-Bench得分31.3,较DeepSeek-V3-0324的13.3提升135.3% [1] 行业特定解决方案与模型选型 - Amazon Bedrock可为具体行业和场景提供差异化模型选型建议,例如媒体广告行业可选Marengo、Pagsus、Stable Diffusion;金融行业可选Palmyra x5;重推理场景可选DeepSeek-V3.1;文本摘要可选Mixtral [6] - Palmyra x5专为金融场景优化,其上下文窗口达100万Token,比一般推理模型高出一个数量级,更适应财务报告和法律合同分析 [6][7] - 中企出海趋势在2025年达到高潮,国内与海外模型选型模板和采购清单不同,但大多数模型均可在Amazon Bedrock找到 [6] 模型技术发展趋势与能力侧重 - 大模型整体发展从单一走向多元化,从通识能力演变为专业能力,未来Agent平台的内生逻辑需要“Choice Matters”策略 [7] - DeepSeek v3.1更强调Agent能力和推理效率,新增840B Tokens训练数据重点提升代码和数学类占比,以增强逻辑推理和数学能力,被称为“迈向Agentic AI时代的第一步” [8][9] - Qwen3同样重视代码、数学、Agentic数据,并特别强调多语言能力,支持119种语言,其中文训练数据占比仅45% [9] - Qwen3部署成本大幅下降,4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一 [9] Amazon Bedrock平台能力与评估体系 - 平台将模型实验和切换能力沉淀为系统级竞争优势,能够快速测试和部署不同模型的组织优于锁定单一模型方法的组织 [10][11] - 模型评估设置两条核心路径:自动评估适用于客观指标,人工评估针对主观判断并可借用官方提供的人工评估团队,最终生成详细评估报告 [11] - 平台提供精选公开数据集并允许企业上传特定业务数据集,提升了模型测试和选型能力的实际价值,替代了传统咨询公司在模型介绍、推荐与评估方面的部分主营业务 [11][12] 市场影响与财务表现 - “Choice Matters”策略是亚马逊云科技实现营收快速增长的原因之一 [6] - 2024年,亚马逊云科技全球营收突破千亿美元大关 [6] - 音视频模型技术演进加速,AI短剧成为“蓝海市场”,未来市场规模可能达到千亿级 [5]
DeepSeek、GPT-5带头转向混合推理,一个token也不能浪费
机器之心· 2025-08-30 18:06
混合推理模式行业趋势 - AI行业面临过度思考导致的算力浪费问题 推动自适应计算技术发展 [2][3] - 2024年多家头部公司推出混合推理方案 通过动态调整计算资源实现50-80%的token节省 [3][7][10] - 混合推理成为大模型领域新常态 成本与性能平衡成为核心竞争力新基准 [11][48] 技术实现路径对比 - 路由方案:OpenAI的GPT-5采用多模型路由系统 根据问题复杂度自动选择gpt-5-main或gpt-5-thinking等模型 [36][37] - 单模型双模式:DeepSeek v3.1通过</think>/<think>标记实现思考模式切换 在基准测试中减少25-50% token消耗 [3][10][46] - 显式控制方案:阿里Qwen3采用/think和/no_think标记 谷歌Gemini 2.5 Flash支持0-24576 token的思考预算调节 [19][23] 头部公司技术布局 - Anthropic的Claude 3.7 Sonnet首创混合推理 支持API端精细控制思考时长 [18] - 腾讯Hunyuan-A13B采用双模式思维链框架 通过后训练统一优化快慢思考两种模式 [34] - 智谱GLM-4.5通过专家训练+自蒸馏技术整合推理能力 实现反思与即时响应模式切换 [35] - 字节Seed 1.6采用Adaptive CoT技术 通过强化学习实现帕累托最优的推理链触发机制 [31][32] - 快手KwaiCoder-AutoThink采用两步式训练 增加pre-think阶段预判问题难度 [27][28] 性能与成本数据 - GPT-5思考模式比前代减少50-80%输出token [7] - DeepSeek v3.1在AIME 2025等测试中保持性能同时减少25-50% token消耗 [10] - Gemini 2.5 Flash启用推理功能后输出成本相差6倍 [23] - 当前20分钟深度研究调用成本约1美元 预计2027年单用户单日Agent调用成本达72美元 [14][15] 技术挑战与演进方向 - 阿里Qwen3混合推理因基准测试表现不佳暂停 转向分模型训练方案 [21] - OpenAI路由方案遭遇专业用户质疑 存在路由不透明和低质量模型分配问题 [38] - 研究领域聚焦无需训练(提示词/路由/解码操纵)和基于训练(微调/强化学习)两大技术路径 [50][51] - 多模态领域出现R-4B等自适应思考模型 自动化程度持续提升 [52] 商业模式创新 - 路由模式使OpenAI可从免费用户提问中识别商业意图 导向高算力模型并实现成交抽成 [43] - 企业级应用更关注成本精确控制 Gemini 2.5 Pro的思考预算机制支持像调节水龙头一样调节AI思考成本 [24] - 深度研究等长任务模式导致token消耗每6个月翻倍 订阅费上涨压力持续存在 [14][16] 未来发展方向 - 行业竞争重点从"是否能思考"转向"能否以最低代价在恰当时刻思考" [56][57] - 技术目标聚焦更智能的自我调节 减少对人类指示的依赖 [57] - 开源模型如DeepSeek v3.1提供高性价比选择 企业级部署成本控制需求持续强化 [46][24]
AI系列跟踪(74):DeepSeekv3.1发布,字节开源Seed-OSS-36B,百度蒸汽模型升级
长江证券· 2025-08-27 15:33
行业投资评级 - 投资评级为看好,维持不变 [7] 核心观点 - DeepSeek v3.1 正式发布,在混合推理、响应速度及 Agent 能力三大维度构筑核心竞争力 [2][4] - 字节跳动开源 Seed-OSS-36B,具备强大原生上下文处理能力、灵活的推理预算控制和卓越的任务性能,成为开源社区新标杆 [2][4] - 百度蒸汽机视频模型升级 2.0 版本,作为全球首个中文音视频一体模型,实现行业内首次多人有声音视频一体化生成 [2][4] - 建议关注 AI 应用商业化潜力、大厂 to C AI Agent 打造、海外商业模式复制及 AI+游戏落地等细分赛道 [9] DeepSeek v3.1 发布 - 混合推理架构:模型同时支持"思考"与"非思考"双模式,用户可根据任务复杂度智能切换,实现高效推理 [9] - 响应速度提升:相比 DeepSeek-R1-0528 模型,DeepSeek-V3-Think 在输出 token 数减少 20% - 50% 的情况下,表现持平甚至更快 [9] - 增强的 Agent 能力:经过 Post-Training 优化,新模型在工具调用与智能体任务中的表现更加出色,执行复杂指令更稳定可靠 [9] 字节跳动 Seed-OSS-36B 开源 - 超长上下文处理能力:上下文窗口原生支持,512K 上下文可一次性处理 1600 页文档或数十万字内容,为长文档分析、代码库理解等场景提供支持 [9] - 思考预算功能:创新性引入"思考预算"功能,使用户能够灵活配置推理过程中的计算资源,智能平衡响应质量与推理速度 [9] - 高效推理优化:采用高效注意力机制与内存管理策略,在处理超长文本时仍可保持合理的推理速度与资源占用 [9] 百度蒸汽机模型升级 - 多人有声音视频一体化生成:行业首次实现多人有声音视频同时输出,毫秒级精准对齐语音、唇形、表情与动作 [9] - 多模态潜在空间规划技术:自主协调角色互动逻辑,确保电影级叙事连贯性;生成视频中文语音还原度超 98% [9] - 端到端影视级画质生成:支持专业级运镜控制能力,集成数十种镜头语言,可精准响应文本指令 [9] 建议关注细分赛道 - AI 应用商业化:关注工具型实力领先的快手、美图,AI 玩具商业化落地看好上海电影 [9] - 大厂 to C AI Agent:聚焦腾讯控股等具备流量分发、模型、数据优势的公司 [9] - 海外商业模式复制:关注广告、电商、教育垂直赛道 [9] - AI+游戏落地:关注 AI 布局积极的巨人网络、恺英网络等游戏厂商 [9]