Workflow
GPT系列
icon
搜索文档
3B打32B?海外病毒式传播的小模型,竟然来自BOSS直聘
机器之心· 2026-03-09 11:58
行业趋势:大模型军备竞赛与“小模型”的兴起 - 大模型行业正经历激烈的“军备竞赛”,开源与闭源阵营都在疯狂追求更大的参数量和算力,模型规模已膨胀至“近乎离谱”的程度 [1] - 过去GPT-2仅有约1.5B参数,如今GPT-4的参数规模估计已达万亿水平,GPT-5预计更大,而2026年发布的开源模型如Kimi K2.5和Ling 2.5也已达到万亿参数规模 [1][2] - 然而,“模型大就一定强”的定律正在动摇,一个仅3B参数的小模型在“50米洗车”等复杂推理问题上,表现超越了万亿级参数的大模型,凸显了模型能力与参数规模并非绝对正相关 [5][7] 核心案例:Nanbeige4.1-3B模型的突破性表现 - BOSS直聘南北阁实验室发布的Nanbeige4.1-3B模型,以仅3B的参数量,实现了通用问答、复杂推理、代码编写和深度搜索等综合能力,挑战了“小模型难通用”的刻板印象 [10][19][21] - 该模型在多项评测中显著超越同规模开源模型(如Qwen3-4B、Qwen3-8B),并在综合指标上超越了参数量大10倍的Qwen3-32B与Qwen3-30B-A3B模型 [11] - 即使与发布时间更晚、参数接近的Qwen3.5-4B模型对比,Nanbeige4.1-3B在六大核心指标上依然整体领先,展现了稳健的技术优势 [14] - 模型发布后迅速获得社区关注,登上HuggingFace文本模型趋势榜第一,并一度冲进全球模型总榜前三 [14] 技术解析:实现“小而全”的关键方法 - 研究团队采用了分阶段、分领域的优化策略,在有限的3B参数规模内系统性地整合了多项能力,并保持了各领域间的能力平衡 [21][22] - **通用能力优化**:调整了指令数据的结构比例,提高代码类样本、数学难题和复杂推理任务的占比,以强化小模型对深层逻辑的建模能力 [23] - **上下文长度扩展**:采用三阶段课程学习(32K → 64K → 256K),渐进式地让模型适应更长的依赖关系,稳定学习长距离注意力结构 [24] - **回复质量提升**:通过引入Solution Refinement(解答迭代优化)与CoT Reconstruction(思维链重构)框架,减少推理中的逻辑跳步和不连贯问题,提升思维链的忠实度和一致性 [26][27][30] 训练机制:创新的强化学习(RL)策略 - 团队创新性地将RL拆分为两个阶段:Point-wise RL和Pair-wise RL [33] - **Point-wise RL**:引入通用奖励模型对单条回答质量评分,显著降低了冗长、重复与格式错误,将LiveCodeBench-v6的格式错误率从5.27%降至0.38% [34][35] - **Pair-wise RL**:让模型与其他模型进行PK,由Pair-wise奖励模型判断回答优劣,使模型在竞争环境中迭代提升,不仅提升了Arena-Hard V2等对抗评测成绩,也对Multi-Challenge等单点评分任务带来明显收益 [35][36] 专项能力:编码与深度搜索的深度优化 - **编码能力**:采用两阶段RL策略,并设计了“门控时间复杂度奖励”机制,即时间奖励仅在解答通过所有测试用例(正确率100%)时才会被激活,确保模型先追求正确性,再优化效率 [38][39] - **深度搜索能力**:通过构建大规模、结构复杂的搜索数据集,并引入“轮次级质量控制”机制,对每一轮搜索交互的推理逻辑、工具调用和信息增益进行独立评估,训练模型形成稳定的“检索-判断-再检索”循环结构 [45][46][48] - 在深度搜索基准测试中,Nanbeige4.1-3B在xBench-DeepSearch-2505上达到75分,在GAIA (text-only)上达到69.90分,成绩接近专为搜索打造的AgentCPM-Explore-4B模型 [54][55] 性能验证:全面的基准测试与实战检验 - 在综合基准测试中,Nanbeige4.1-3B在多数测试上超越了参数规模10倍以上的模型,并在与Qwen3-Next-80B-A3B等超大模型的对比中保持竞争力,各项指标互有胜负 [50][53] - 在代码领域,其LCB-V6得分达76.9,远超Qwen3-32B的57.4;在数学领域,AIME 2025得分达90.83,优于Qwen3-30B-A3B的87.8 [51] - 在模型发布后举办的真实任务竞赛中(如LeetCode周赛和HMMT数学竞赛),Nanbeige4.1-3B的表现不仅显著优于Qwen3.5-4B,甚至超过了参数量更大的Qwen3.5-9B,有力证明了其极强的泛化与推理能力 [56][57][58] 行业影响与未来展望 - Nanbeige4.1-3B的成功表明,通过精细化的训练方法创新,小模型可以形成独立、通用的能力体系,而不再仅仅是大模型的“轻量替代品” [60][61] - 参数规模的差距正被训练范式的创新所弥补,原本依赖大模型规模优势的Agent与复杂推理能力,开始下沉到更具部署友好性的小尺度模型 [61] - 当3B模型即可稳定处理推理、编程与搜索任务时,企业侧的部署范式将被重写,为移动端、本地化及私有化部署场景打开了巨大的想象空间 [62] - 行业认为,大模型的边界在扩张的同时,小模型的效率革命也在发生,未来决定AI应用广度的关键,可能是“小参数模型所能释放的智能密度” [63][64]
千问林俊旸离职:传言大多是错的,真相比你想的朴素得多
美股研究社· 2026-03-05 21:50
阿里Qwen人事变动与战略调整 - 阿里Qwen技术负责人林俊旸离职,引发外界对技术路线分歧和商业化压力的猜测,但公司澄清事实并非如此 [3][4] - 林俊旸离职的核心原因是,随着千问从技术项目跃升为集团核心战略,公司为提升人才密度而调整其权责边界,他因个人选择不接受而辞职 [4][10] - 公司强调,此次调整没有暗流或清洗,开源策略从未动摇,团队也未被商业化指标压迫 [4] 技术路线与研发哲学 - 林俊旸秉持“私房菜”哲学,强调模型研发中预训练、后训练与底层基础设施需高度协同、紧密耦合,为此在团队内自建专属Infra队伍 [5] - 然而,大模型竞争遵循Scaling law,本质是数据和资源的暴力堆叠,需要将研发链路拆开,让预训练、Infra平台等环节各自独立放大,以实现“大力出奇迹” [5] - 这反映了从追求精细的“精品路线”向追求规模和效率的“体系化作战”转变 [5] 行业竞争态势演变 - 全球大模型战事惨烈,伴随剧烈战略摇摆和人事变动,例如字节跳动、OpenAI的团队均有重大变化 [7] - 此前阿里Qwen团队是业内罕见的“稳定孤岛”,两年未有重大变动,这使其在全球开源社区开疆拓土,衍生模型数突破20万 [7] - 2026年,AI竞赛已从“技术刷榜”转向“价值落地”,OpenAI减少“炫技型”模型发布,全力押注GPT-5的Agent化落地,Meta则以高达数十亿美元收购Manus [8][9] 阿里千问的战略升级与体系优势 - 公司提升人才密度、调整权责边界,是为了适应从“技术刷榜”到“价值落地”的新战局,是“时也,势也”的必然动作 [9][10] - 人事上,CEO吴泳铭亲自挂帅基础模型支持小组,周靖人坐镇通义实验室,开源策略和投入承诺未变,体系变得更强 [10] - 千问的护城河在于阿里的集团体系力量,而非个人 [12][13] 阿里集团的体系化能力 - **技术迭代效率**:Qwen是阿里达摩院多年在NLP、多模态领域深耕的集大成者,公司构建了全球最完整的开源模型矩阵之一,具备连续快速的技术迭代能力 [13] - **数据生态广度**:公司拥有独一无二的“商业+生活”全场景数据富矿,包括电商、物流、本地生活、文娱等内容,为模型提供了天然的“训练场”和无法复制的壁垒 [14] - **基础设施硬度**:公司持续推进3800亿元AI基础设施建设计划,实现了从自研芯片(含光、倚天)到万卡集群调度能力,再到“芯片-框架-模型-应用”的全栈自主可控 [14] 阿里AI战略的未来趋势 - **资源密度指数级提升**:公司成立由CEO吴泳铭、CTO周靖人等关键人物组成的基础模型支持小组,将彻底打通算力、资金和跨部门协同的壁垒 [19] - **场景落地深度渗透**:公司将AI品牌统一为“千问”,并将模型下沉到应用,例如千问AI眼镜在世界移动通信大会亮相,预示着基模与应用生态的双轮驱动竞赛 [20][21] - **引领科技变革的野心**:公司持续加大研发投入,招揽技术人才,旨在通往AGI的道路上确保中国拥有充足的“智力牌”,目标是成为下一个时代的AI基础设施平台型企业 [22]
AI编程:重塑软件开发新范式,应用生态加速繁荣
信达证券· 2026-02-13 15:05
行业投资评级 - 报告对计算机行业(AI编程领域)的投资评级为“看好” [2] 报告核心观点 - AI编程(AI Coding)正在重塑软件开发的核心生产力范式,其应用生态正在加速繁荣 [1][2] - AI编程的价值在于提升开发效率与质量、降低技术门槛、并加速项目迭代周期 [2][11] - 大模型编程能力的跃进正推动AI编程工具从Copilot(辅助)模式向Agent(自主)模式演进 [2][23] - 多因素驱动市场快速发展,潜在市场空间广阔,海外应用已规模化落地并验证爆发潜力,国内厂商正积极布局加速落地 [2] 根据目录分章节总结 一、AI Coding:重塑软件开发新范式,市场潜在空间广阔 - **AI编程重塑生产力方式**:基于大模型的自动化编程提升效率与质量,使用AI编码的开发人员平均生产力提高35% [11]。工具模式正从L1(代码补全)向L5(AI开发团队协作)的自主型Agent模式跃迁 [23][24] - **市场驱动与空间**:需求来自专业开发者技术升级(全球约2800万开发者)和非专业人员赋能 [24]。根据Grand View Horizon数据,2024年全球AI代码工具市场价值61.11亿美元,预计2030年达260.33亿美元,2024-2030年CAGR为27.1% [26][32]。根据亿欧智库数据,2023年中国AI代码生成市场规模65亿元人民币,预计2028年达330亿元,CAGR为38.4% [2][26] - **融资与用户激增**:2024年AI编程赛道融资总额超10亿美元 [33]。海外头部产品如Cursor在2025年11月获得23亿美元融资,估值达293亿美元;Claude Code和GitHub Copilot的年度经常性收入(ARR)分别突破5亿和3亿美元 [2][34]。GitHub Copilot累计用户于2025年7月末突破2000万 [2][33] - **技术分化与商业化**:AI编程工具可分为原生AI IDE、IDE插件、云端环境等类型,面向专业开发者、企业团队及非技术人员等不同层次用户 [37][38]。企业License年费约30万-200万人民币,使用率50%-80%,接纳率20%-30% [40] 二、海外AI编程应用规模化落地,业绩增长验证爆发潜力 - **GitHub Copilot平台生态优秀**:截至2026年1月,GitHub拥有超1.5亿开发者 [42]。Copilot提供Chat、Agent、CLI等多种模式,并与主流大模型集成 [47][52]。截至微软2024财年第三季度,付费用户数跃升至180万,同比增长超35%;2025年7月末累计用户突破2000万 [2][59]。其ARR在2024年7月已突破3亿美元,占GitHub年度增长的40% [59] - **Cursor验证“IDE+AI”道路成功**:Cursor是集成了Agent、Ask、Plan等模式的AI编程IDE [60][64]。2025年11月其年化收入(ARR)突破10亿美元,被超5万家企业选择,半年内收入增长约10倍 [2][74]。在Salesforce内部,几个月内就有75%的工程师日常使用 [75] 三、国内厂商积极布局,AI编程应用加速落地 - **整体市场处于爆发期**:国内AI编程助手对开发者的覆盖率约30%,远低于美国的90%,发展空间大 [76]。字节、阿里、百度、腾讯、智谱等厂商均积极布局 [76] - **字节Trae:AI原生IDE**:基于VS Code构建,主打AI+IDE,提供Builder、Chat模式及内置智能体SOLO Coder [2][81][82]。截至2025年末,Trae全球用户超600万,覆盖近200个国家和地区,月活突破160万 [3][92] - **卓易信息:“AI+IDE”双重布局**: - **SnapDevelop**:低代码集成开发环境(IDE),支持.NET云原生开发及鸿蒙应用,开发效率可提升3-5倍,自动生成50%-80%代码 [3][94][95]。截至2025年上半年拥有超2万试用用户,2026年1月发布的专业版定价2660元/人*年 [3][100] - **EazyDevelop**:以AI+IDE和多智能体为基底的集成开发平台 [3][98]。截至2025年底,平台用户突破1.3万,订单金额突破1800万元 [3][100] 投资建议 - AI编程有望成为最具价值的AI应用之一,海外成功验证其潜力,开源生态与企业付费双轮驱动商业化 [3] - 建议关注卓易信息,其IDE产品在专业性和独立性上具有较大优势,全面升级后的专业版商业化落地值得期待 [3][102]
DeepSeek变冷漠了
36氪· 2026-02-12 19:25
核心观点 - 公司近期进行了一次灰度更新,重点提升了长文本处理能力,但导致用户情感交互体验显著下降,引发用户不满 [1][6] - 公司即将在春节前后发布V4正式版本,预计将解决当前体验问题,并在内部测试中展现出强大的编程能力和成本优势 [8][9][10] - AI行业竞争加剧,多家竞争对手在近期发布或即将发布重要模型升级,行业在春节期间预计将非常活跃 [11][12] 产品更新与用户反馈 - 公司于2月11日进行了一次灰度更新,为即将发布的V4版本做准备 [1] - 更新后,模型上下文窗口从128K Token大幅提升至1M Token,可一次性处理近百万字内容,跻身行业第一梯队 [6] - 为支撑长文本处理,引入了mHC架构和Engram条件记忆模块两项核心技术,但暂时降低了情感交互模块的权重 [6] - 更新导致模型回复风格大变,被用户吐槽变得冷漠、生硬、敷衍,且不再使用用户自定义昵称 [2] - 模型有时表现出居高临下或“爹味”十足的语气,甚至在被调侃后会进行回怼 [3][4] - 用户无法通过调整提示词恢复旧版体验,部分用户选择下载旧版本或向官方反馈意见,但官方尚未回应 [5] - 此次灰度更新被业内人士视为更侧重速度的“极速版”,牺牲了部分聊天体验 [8] 公司近况与未来计划 - V4正式版本预计在2月中旬(春节前后)发布,届时当前冷漠生硬的问题预计会得到完善 [8][9] - 在内部测试中,V4版本的编程能力已超过Claude和GPT系列,且推理成本可能只有V3版本的一半 [10] - 技术升级使模型能更快地从海量信息中抓取重点,学习和推理也更精准 [10] - 公司近期密集招聘,开放了包括产品经理、模型策略产品经理、客户端、前端、全栈工程师以及首席财务官在内的超12个核心岗位 [10] - 组织架构的扩张被认为是在为新产品的爆发做准备 [11] 市场表现与行业动态 - 根据SimilarWeb数据,公司今年1月全球访问量为2.983亿次,排名全球第四,仅次于ChatGPT、Gemini、Grok,但较去年12月的3.289亿次有所下降 [7] - 竞争对手动作频繁:智谱GLM-5于2月11日正式发布,编程与智能体能力逼近国际顶级水平,并登顶全球开源模型榜首 [11] - 竞争对手豆包也即将发布大模型2.0版本,将同步升级文生视频、图像生成等多模态功能 [11] - 预计今年春节期间AI行业将非常热闹,各类新品与升级将轮番登场 [12]
春节见?DeepSeek下一代模型:“高性价比”创新架构,助力中国突破“算力芯片和内存”瓶颈
硬AI· 2026-02-11 16:40
文章核心观点 - 野村证券认为DeepSeek即将发布的新一代大模型V4,预计不会像V3那样颠覆全球AI价值链或引发算力需求恐慌,但其通过mHC和Engram两项底层架构创新,有望进一步降低训练和推理成本,加速中国AI价值链创新周期,并帮助全球大语言模型和AI应用企业加速商业化进程,缓解资本开支压力[2][3][4][5] 创新技术架构带来性能与成本优化 - 算力芯片和内存是中国大模型的瓶颈,V4引入的mHC和Engram技术从算法和工程层面针对这些硬约束进行优化[7] - mHC全称为“流形约束超连接”,旨在解决Transformer模型层数极深时的信息流动瓶颈和训练不稳定问题,通过让神经网络层间“对话”更丰富灵活并设置数学“护栏”,实验证明采用mHC的模型在数学推理等任务上表现更优[8] - Engram是一个“条件记忆”模块,其设计理念是将“记忆”与“计算”解耦,将静态知识存储在可置于廉价DRAM的稀疏内存表中,推理时快速查找,从而释放昂贵的GPU内存专注于动态计算[11] - 两项技术结合对中国AI发展意义重大:用更稳定的训练流程弥补国产芯片不足,用更聪明的内存调度绕过HBM容量和带宽限制[13] - V4最直接的商业影响是进一步降低大模型的训练与推理成本,成本效益的提升将刺激需求,使中国AI硬件公司受益于加速的投资周期[13] 硬件受益于“加速周期” - 全球主要云服务商正全力追逐通用人工智能,资本开支竞赛远未停歇,因此V4预计不会对全球AI基础设施市场造成去年V3发布时级别的冲击[15] - 全球大模型及应用开发商正背负日益沉重的资本开支负担,V4若能在维持高性能的同时显著降低训练与推理成本,将帮助这些玩家更快地将技术转化为收入,缓解盈利压力[15][16] - DeepSeek-V3/R1发布一年后,市场格局从“一家独大”走向“群雄割据”,其“算力管理效率”叠加“性能提升”曾加速中国LLM与应用发展并改变全球与中国竞争格局,推动开源模型更受关注[16][18] - 2024年底,DeepSeek的两个模型曾占据OpenRouter上开源模型Token使用量的一半以上,但到2025年下半年,随着更多玩家加入,其市场份额已显著下降[18] 软件或迎来“增值而非被替代” - 在应用侧,更强大、更高效的V4将催生更强大的AI智能体[20] - 像阿里通义千问App等,已经能够以更自动化的方式执行多步骤任务,意味着AI智能体正从“对话工具”转型为能处理复杂任务的“AI助手”[21] - 这些能执行多任务的智能体需要更频繁地与底层大模型交互,将消耗更多的Token,进而推高算力需求[21] - 模型效能的提升不仅不会“杀死软件”,反而为领先的软件公司创造了价值,需要关注那些能率先利用新一代大模型能力打造出颠覆性AI原生应用或智能体的软件公司,其增长天花板可能因模型能力的飞跃而被再次推高[22]
中金:人工智能十年展望:2026关键趋势之模型技术篇
中金· 2026-02-11 13:58
报告投资评级 - 报告未明确给出具体的行业或公司投资评级 [2] 报告核心观点 - 回顾2025年,全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,但通用能力在稳定性、幻觉率等方面仍有短板 [2] - 展望2026年,大模型将在强化学习、模型记忆、上下文工程等方面取得更多突破,从短文本生成向长思维链任务、从文本交互向原生多模态演进,向实现AGI的长期目标更进一步 [2] 技术视角:模型架构优化与提升智能上限 模型能力:聚焦推理、编程、Agentic与多模态 - **推理能力**:2025年模型推理能力上限和思维链利用效率均得到优化,强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思,并与工具调用结合形成“交错思维链” [17][18]。在MMLU-Pro测试中,头部模型如Gemini-3-Pro-Preview得分为90.5%,Claude-Opus-4.1为87.9%,GPT-5为87.1% [19] - **编程能力**:AI编程已进化为具备工程闭环能力的开发者代理,从代码补全到全栈自主构建。2025年约84%的全球开发者使用AI编程工具 [20]。在Code Arena测试中,Claude-opus-4-5-20251101-thinking-32k得分为1510,GPT-5.2-high为1478,Gemini-3-pro为1477 [22] - **Agentic能力**:核心技术突破之一是交错思维链的使用,使智能体能在思考与行动间高频切换,提升实时修正能力并降低幻觉。在HLE测试中,Gemini-3-pro-preview准确率为37.5%,GPT-5-pro为31.6%,GPT-5.2为27.8% [24][25] - **多模态能力**:图片生成在质量、理解与控制能力上实现大幅跃升,进入可控、可用、可规模化生产阶段。原生多模态架构(统一token化)普及,以Gemini-3为代表 [28]。在OpenCompass测试中,Gemini-3-Pro得分为66.4,Seed1.6-vision为61.1,Qwen3-VL-235B-A22B-Thinking为60.2 [30] - **能力差距**:国产大模型整体能力与海外头部模型维持约半年的静态差距,在海外模型推出3到6个月后,国内头部厂商能推出能力相当的模型并达到SOTA水准 [32][33] - **发展路径**:海外模型厂商追求模型智能上限,国内模型厂商在有限资源下通过开源路线、工程及算法优化追求效率与性能的平衡 [37] 模型架构:基于Transformer的优化延续 - **主流架构**:Transformer架构延续,优化聚焦于模型架构、算法和工程,以提升参数利用效率和模型智能潜力 [40] - **MoE架构**:平衡性能与效率的稀疏专家混合网络(MoE)成为共识,通常仅激活模型总参数的10-20%,显著降低计算量。国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [41] - **注意力机制**:基于算法和工程优化提升效率,主要分为全注意力(Full-Attention,复杂度O(N^2))、线性注意力(Linear-Attention,复杂度O(N))和混合注意力(Hybrid-Attention)。模型厂商根据效果持续优化选择,如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入稀疏注意力将计算复杂度降至O(Nk) [49][50] - **工程优化**:核心是降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制、长上下文优化等。通过线性注意力、稀疏注意力、MLA内存优化等技术降低计算复杂度和显存占用 [54][55] 训练范式:预训练与强化学习 - **预训练 Scaling-Law**:预计2026年预训练阶段的Scaling-Law将重现,旗舰模型参数量将更上一个台阶。预训练通过算法和工程优化仍有提升空间,随着英伟达GB系列芯片成熟,模型将基于更高性能的万卡集群进一步突破智能上限 [3][61] - **强化学习重要性**:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”。海外模型厂商非常重视,国内厂商如DeepSeek、阿里千问也在跟进。预计2026年海内外模型厂商强化学习占比将进一步提升 [3][61] - **算力与数据基础**:强化学习需要大规模算力提供稳定性,并高度依赖高质量数据。高质量数据用于奖励模型训练和SFT冷启动 [62] - **算法演进**:强化学习路径从RLHF、PPO、DPO演进至推理导向的强化学习(如GRPO),并正从静态离线向动态在线演进 [64][66] 路线展望:持续学习、模型记忆与世界模型 - **持续学习与模型记忆**:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制,实现持续甚至终身学习。Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是落地的关键 [4][70] - **世界模型**:聚焦理解物理世界因果规律,是实现AGI的重要拼图。当前主要有三条技术路径:李飞飞团队World Labs的Marble模型(创建持久3D世界)、LeCun的JEPA架构(认知预测)、Google DeepMind的Genie 3(交互仿真) [87][90] - **短期与中长期焦点**:2026年模型厂商短期将聚焦强化学习和上下文工程,中长期围绕持续学习、模型记忆和世界模型等创新路线 [67] 回顾与展望:海内外头部大模型巡礼 OpenAI - **2025年进展**:在推理、Agentic、多模态、代码能力上全方位提升,发布了GPT-4.1、o4-mini、GPT-5、Sora-2等模型。开始探索商业化,如在ChatGPT中插入推荐广告,与软件厂商合作探索企业智能代理 [93] - **2026年展望**:预计将加速商业兑现,拓展企业端和广告市场,借鉴Cowork和Moltbot等企业端Agent案例打造新产品 [95] Gemini (Google) - **2025年进展**:Gemini-3的发布使Google跻身第一梯队,其原生多模态能力突出。Nano banana Pro图像生成模型具备空间推理和光影控制能力。商业化上更聚焦产品提效,Gemini月活达6.5亿,API每分钟消耗70亿tokens [98] - **2026年展望**:预计将延续原生多模态优势,推进Scaling-law,提升长链推理和端到端编程能力,并加速探索世界模型 [99] Anthropic - **2025年进展**:延续在编程领域的优势,发布了Claude Opus-4.5等模型,加强了代码与长任务处理能力。推出了面向开发者的Claude Code(ARR已突破10亿美元)和面向泛化用户的Cowork,探索企业Agent场景 [101][102] - **2026年展望**:预计将提升记忆能力,探索更多Agent泛化场景,让Cowork等产品具备“永久记忆”,成为理解用户的专属智能体 [103][104] 阿里通义千问 - **布局**:布局全模态模型矩阵,打开Agent市场空间 [105]
中金 | AI十年展望(二十六):2026关键趋势之模型技术篇
中金点睛· 2026-02-05 07:52
文章核心观点 - 2025年全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,已能应用于真实生产力场景,但模型在稳定性、幻觉率等方面仍有短板 [1][3] - 展望2026年,预计预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶,强化学习、模型记忆、上下文工程等领域将取得更多突破,推动模型向AGI目标迈进 [1][2][4] - 中美大模型发展路径不同:海外厂商追求智能上限,国内厂商在有限算力下通过开源和工程优化追求效率与性能平衡,但两者相互借鉴,共同推动AI产业发展 [12][14] 技术视角:模型能力进展与短板 - **2025年能力进展**:海内外模型在推理、编程、Agentic及多模态能力上持续迭代,在文本、搜索、编程、图像&视频多模态任务等多个领域已达到真实生产力水平,进步超过2023年预期 [3] - **现存短板**:模型通用能力在可靠性、幻觉率方面未完全解决,记忆能力有提升空间;细分领域上,强逻辑&数学推理能力稳定性不足,对真实世界的理解和建模能力较弱,智能呈现“锯齿状” [4] - **2026年展望**:模型将在长板层面继续进化,并寻找有效路径补齐短板,从ChatBot到Agent,从短context生成到长思维链任务,从文本交互到原生多模态演进 [4] 模型细分能力复盘 - **推理**:强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思;模型推理与工具调用结合形成“交错思维链”,以完成更复杂的Agent任务,但产业也开始优化思维链效率以控制成本与延迟 [6] - **编程**:在模型推理能力提升驱动下,AI编程从代码补全进化为具备工程闭环能力的开发者代理,能拆需求、搭框架、调接口、跑测试;前端追求极致视觉还原与即时预览,后端模型已具备架构思维,通过“慢思考”推演降低幻觉率,预计2026年编程仍是落地最快场景之一 [6] - **Agentic**:2025年工具调用能力成为标配,核心技术突破之一是交错思维链的使用,让智能体在思考与行动间无缝高频切换,提升实时修正能力并降低幻觉与记忆遗忘,能自主拆解数十个子任务并实现复杂长程任务闭环 [9] - **多模态**:图片生成在质量、理解与控制能力上大幅跃升,迈入可控、可用、可规模化生产阶段;以Gemini-3为代表的原生多模态架构普及,统一token化训练,并将强化学习引入视觉和音频领域以加强时空逻辑和动作因果理解 [9][10] 海内外头部模型竞争格局 - **海外头部玩家**:OpenAI、Anthropic、Gemini以AGI为远期目标,从不同维度加速探索;OpenAI文本类推理实力突出,同步提升多维度能力维持领跑;Gemini后来居上,基于预训练高质量数据与Scaling Law及后训练强化学习,基础与多模态能力大幅提升;Anthropic聚焦代码及Agent领域,走出别具一格变现路径 [11] - **国产大模型**:整体能力与海外头部模型维持约半年静态差距,在海外模型推出3个月到半年后,国内头部厂商能推出能力相当的模型并达到SOTA水准;第一梯队包括阿里Qwen-3、字节豆包1.8、DeepSeek-V-3.2、Kimi-K2、智谱GLM-4.7、MiniMax-M2 [12] - **发展路径差异**:海外厂商算力资源丰富,通过算力Scaling Law+算法优化+高质量数据齐头并进迭代基座模型,追求智能上限;国内厂商在有限资源下,通过开源路线、工程及算法优化追求效率与性能平衡,并在应用端开拓更具创新思维 [14] 模型架构:优化与创新 - **架构延续与优化**:主流模型参数规模已达万亿以上,厂商更聚焦模型架构、算法、工程共同优化,在扩大参数规模的同时提升参数利用效率 [14] - **MoE架构成为共识**:MoE架构采用稀疏激活模式,通常仅激活模型总参数的10-20%,显著降低计算量,实现计算需求与模型规模的有效解耦;国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [17] - **MoE优化挑战**:面临计算效率、专家负载不均、参数通信等问题,需通过更复杂算法和硬件基础设施解决,例如通过辅助损失函数实现负载均衡,并通过芯片与算法协同设计提升效率 [18] - **注意力机制优化**:模型厂商基于效果在不同注意力机制(Full-Attention、Linear-Attention、Hybrid-Attention)间优化与切换,以平衡精度与效率,例如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入Sparse-Attention将计算复杂度从O(N^2)降至O(Nk) [20] 工程优化:降本提速与规模化 - **核心目标**:工程侧优化聚焦降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制分配模型类型、长上下文规模化落地等 [21] - **具体实践**:GPT-5引入实时路由模式,根据用户提示词自动分发请求;海内外厂商通过混合注意力机制、KV Cache压缩、算子优化、上下文重写与压缩等不同路径提升上下文处理效率 [21][22] 训练范式演进 - **预训练Scaling-Law重现**:预计2026年预训练阶段在算法和工程优化下仍有提升空间,随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群实现Scaling Law,模型参数量和智能上限将进一步提升 [1][22] - **强化学习重要性提升**:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”,依赖大规模算力与高质量数据;预计2026年强化学习在训练阶段占比将进一步提升 [2][23] - **强化学习占比数据**:DeepSeek V3.2后训练计算预算占预训练成本的10%+,估计海外模型厂商相关比重更高,可能在30%左右 [23] - **强化学习路径演进**:正从静态离线向动态在线演进,长期趋势是模型持续向半自动验证甚至不可验证的场景中进行在线学习 [26] 前沿技术路线展望 - **持续学习与模型记忆**:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制;Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是让模型根据任务时间跨度和重要性动态调整学习和记忆方式的关键 [2][28] - **嵌套学习(Nested Learning)**:模仿人脑处理记忆的方式,通过分层学习和优化机制实现持续学习新范式 [29] - **HOPE架构**:作为嵌套学习的工程实现,是基于自修改Titans+连续记忆系统的多层次记忆系统,通过“快”“慢”系统协作对抗灾难性遗忘 [32] - **模型记忆成为Agent刚需**:ChatGPT通过四层上下文堆栈工程化优化记忆,未来技术演进路径包括分层记忆、将长期记忆更新至模型参数 [35] - **世界模型**:聚焦理解物理世界因果规律,是实现AGI的重要拼图;主要技术路径包括李飞飞团队的3D物理空间(Marble模型)、LeCun的基于控制理论的JEPA架构、Google DeepMind的交互式视频引擎(Genie 3) [36][40] 海外头部模型厂商巡礼 - **OpenAI**:2025年模型在推理、Agentic、多模态、代码方面全方位提升,发布GPT-4.1、o4-mini、GPT-5、Sora-2等;预计2026年将加速商业兑现,拓展企业端和广告市场 [41][42] - **Gemini**:2025年能力大幅跃升,Gemini-3发布使Google成为世界第一梯队;原生多模态图像生成模型Nano banana Pro具备空间推理和光影控制能力;预计2026年将聚焦综合能力提升并加速探索世界模型 [43][45][47] - **Anthropic**:2025年延续在编程领域优势,加强代码和Agent体验;推出Claude Code(截至25年底ARR已突破10亿美元)和Cowork,探索企业场景;预计2026年将提升记忆能力并探索更多Agent泛化场景 [48][49][52] - **商业化与IPO前景**:截至26年1月,OpenAI估值达8,300亿美元,25年收入预计200亿美元,计划26年Q4启动IPO;Anthropic估值达3,500亿美元,25年收入90亿美元,也将在26年启动IPO [61] 国内头部模型厂商巡礼 - **阿里通义千问**:2025年推出Qwen-3等模型提升全模态能力,领跑中国市场;预计2026年将探索B端Agent市场机遇,让Qwen Agent作为“Orchestrator”编排垂类Agent,并可能探索世界模型技术 [53] - **字节豆包**:2025年提升基座模型能力,豆包1.8具备超长上下文与多模态、Agent能力;截至25年12月底,豆包大模型日均使用量达50万亿+(自发布以来提升417倍),日活用户突破1亿;预计2026年将延续多模态优势并深挖Agent机会 [54][55] - **DeepSeek**:2025年引领大模型走向开源普惠,发布R1、DeepSeek-Janus-Pro、DeepSeek-V3.2等;架构上采取稀疏注意力机制降低计算复杂度;预计2026年将持续追求技术优化与提升多模态能力 [56][57]
AI-驱动的新药研发-原理-应用与未来趋势
2026-01-20 09:50
AI驱动新药研发行业研究纪要关键要点 涉及的行业与公司 * 行业:AI驱动的新药研发(AIDD)行业 [1] * 提及的公司:某西智能(采用GAN模型,已进入临床二期)[16]、某泰科技(以传统CADD为主,拓展深度学习)[16]、星耀科技(曾技术优秀但已倒闭)[16] * 提及的技术/模型提供方:AlphaFold(预测蛋白质结构)[1][2][4]、OpenAI(生成模型)[2]、扩散模型(Diffusion Model)[1][2][4]、Deepseek(对话模型)[7][18]、ChatGPT(对话模型)[7]、GPT系列(大规模参数模型)[11]、DeepMind(智能体应用)[18]、Anthropic(大模型趋势)[18] 核心观点与论据 AI制药的原理与优势 * AI通过预测蛋白质结构(如AlphaFold)加速靶点发现,并利用生成模型(如扩散模型)设计先导化合物,提高新药研发效率和成功率 [1][2] * 人工智能驱动的新型药物发现(AIDD)跳过传统计算机辅助药物设计(CADD)复杂的物理规则,通过海量数据直接预测分子效果,提高了预测准确性和数据集处理能力 [1][3][4] * AI在临床前研究中可预测小分子的毒性、安全性等性质,减少实验筛选时间和成本 [2] 关键技术方法与应用 * **图神经网络(GNN)**:擅长处理小分子结构数据,但随着分子复杂性增加,学习效果显著下降 [1][13] * **多模态学习**:整合图像、文本、指纹和点云等多种数据模态,更全面表征小分子特性,提高研发效率,已在KRAS靶点研究中取得成果(使用3,400多个小分子结构及活性数据)[1][15] * **AI模型类型**:分为解决特定垂直领域问题(如药物结构生成、基因诊断)的“小模型”和用于对话及调用(如撰写报告)的“大模型” [1][7][11][12] * **智能体应用**:可根据用户需求自主设计并监控整个工作流程,例如ADM MEC智能体可自动调用约14个工具生成报告,降低化学家和生物学家使用门槛 [18][20] 行业评估与发展趋势 * **评估AI制药公司能力**需考察:是否采用深度学习等先进算法(非仅传统CADD)、拥有高质量数据、已有成功案例、持续创新能力 [1][5][6] * **未来趋势**:小分子设计复杂化(如雷帕霉素等新型大分子胶)[13][17]、多模态融合技术主流化 [1][17]、新型编码器和深度学习算法涌现 [1][17]、智能体在工作流设计中应用增加 [1][20]、公司技术保密更严格 [17] * **模型选择**:基于测试,上百亿参数的大模型与32B或8B的小模型在调用工具时效果相似,需权衡参数量、效果及成本 [21] 其他重要内容 * AI模型的训练过程类似于人类学习,包括非监督学习的初步分类和引入外部标签的监督学习 [8] * 选择适当的数据编码器(如CNN处理图片、RNN/Transformer处理语言、GNN处理图结构)对提高AI模型性能至关重要 [10] * 当前一些主流AIDD公司的技术特点各异,包括模型类型(如GAN)、技术透明度(开源或保密)和市场化能力 [16] * AI编程(AI coding)是当前最成熟的大模型应用之一,已催生市值数百亿甚至上千亿的公司 [18]
Deepseek新模型有望2月发布,这些方向成潜在发酵重点
选股宝· 2026-01-15 16:19
事件概述 - DeepSeek或将于2月发布新一代旗舰AI模型DeepSeek V4 [1] - 内部初步测试表明,V4在编程能力上超过了Anthropic的Claude和OpenAI的GPT系列 [1] 核心技术突破:Engram模块 - Engram模块是V4架构的核心突破,是一个巨大的、可扩展的嵌入表,为Transformer增加外接记忆库 [2] - 该模块实现了“查算分离”,将实体名、通用常识等静态知识存入可扩展查找表,实现O(1)级快速检索,让MoE专家层聚焦复杂推理 [2] - 该技术将大模型20%-25%的静态知识参数从GPU显存迁移至主机内存,重塑了模型的存储需求结构 [3] - 同等参数规模下,模型对高成本HBM的依赖强度显著下降 [3] - 系统可在GPU执行计算时异步预取DRAM数据,使DRAM成为承载“温数据”的核心层级,单节点存储容量有望从1-2TB翻倍至4TB以上 [3] 对产业链的潜在影响 - 技术变革直接带动服务器对高频DDR5、MRDIMM及CXL存储池化技术的需求爆发 [3] - 推动AI应用场景下SSD用量进入高速增长通道 [3] - 相关SSD存储标的包括江波龙、德明利、佰维存储 [9] AI编程的战略意义与市场前景 - AI编程是当前B端应用落地最成熟和最主流的赛道 [4] - Anthropic的AI编程工具Claude Code在发布仅6个月后年度化收入就达到了10亿美金 [4] - 根据OpenRouter数据,AICoding占据全球token总消耗的50% [4] - 国产开源大模型有利于提升国产IDE的使用频次和深度 [4] - 低代码平台同样受益于国产大模型的发展,可将智能化场景合理拆分,分阶段推进 [4] - 相关应用厂商标的包括合合信息、万兴科技、京北方、宇信科技、华宇软件、卫宁健康、创业慧康、嘉和美康、用友网络、金蝶国际等 [9] V4版本的其他潜在关注点 - 关注V4是否会发布蒸馏版本以提升AI应用使用性价比,蒸馏版本可适用于多种算力芯片,利好消费电子 [5] - 关注API定价是否会大幅低于其他主流大模型 [5] - 关注V4在多模态上是否有重要更新 [5] - 关注V4是否进一步支持国产芯片架构,DeepSeek在V3.1时已公开使用针对国产芯片设计的UE8M0 FP8 Scale参数精度 [5] - 国产大模型和国产芯片之间的协同将有效加速国内AI产业发展 [5] - 相关算力基础设施标的包括寒武纪、海光信息、弘信电子、首都在线、光环新网、优刻得、科华数据、浪潮信息等 [9] 历史市场表现 - DeepSeek R1模型于2025年春节前发布,并在春节期间火爆全球 [6] - 概念股每日互动从17元附近一度最高涨至70元 [6]
财经观察:DeepSeek一周年,中美AI之路再对比
环球时报· 2026-01-15 06:51
中国人工智能行业发展态势 - 中国AI初创公司深度求索预计将于2月中旬推出下一代AI模型V4,其编码能力表现可能优于美国公司Anthropic的Claude和OpenAI的GPT系列 [1] - 2025年一年时间,中国缩小了与美国在人工智能领域的差距,中美大模型已跑出两条不同的主航道 [1][4] - 中国的开源人工智能模型占全球AI技术使用总量的近30%,中国的开源模式正在赢得世界各地开发者的信任 [3] 中美AI发展路径对比 - 美国走的是“前沿能力持续拉高+闭源模型+平台化产品”路线,将最强模型封装成ChatGPT等超级入口,目标是把智能变成可控、可收费、可治理的基础设施 [4] - 中国走的则是“开源权重+极致工程效率+快速产业扩散”路线,不追求长期垄断最强模型,而是把足够强的能力尽快做成可复制、可落地的工程资产 [4] - 若只看“最强模型的前沿能力”,美国仍领先数月到一年级别;若看“工程效率、成本和落地速度”,中国几乎没有时间差,局部甚至更快;若看“产品平台、生态与规则制定”,美国依然领先一到两年 [5] 中国AI公司的竞争力与进展 - 深度求索的R1大模型仅用两个月完成训练,成本仅为美国公司所花费金额的一小部分,但效果与OpenAI的ChatGPT和Meta的Llama大模型不相上下 [2] - 阿里巴巴早在2018年就启动了AI大模型研发,截至目前已开源近400个模型,全球衍生模型超过18万个,下载量突破7亿次 [3] - 更多的中国大模型公司已紧跟最新AI发展步伐,跻身全球大模型第一梯队 [2] AI技术应用与落地前景 - 2025年,AI改变最大的地方是写代码,未来信息接收、创造和处理会更多地被AI替代 [8] - 中国在“工程落地速度”和“供应链完整度”方面具有优势,在激光雷达、高能量密度电池和高性价比电机组件上几乎占据半壁江山,机器人迭代快且具备大规模量产的潜力和成本优势 [7] - 下一个“深度求索时刻”可能出现在人形机器人+大模型、工业/能源/供应链大模型、低成本推理与端侧模型突破等方向 [10] AI产业规模化与市场影响 - AI潮玩品牌珞博智能将2026年销售目标定为100万台AI玩具,认为大模型技术成熟、供应链成本可控、消费者认知提升三大条件已具备 [10] - “100万台”是AI玩具行业的里程碑,海量高质量的交互数据将极大加速模型“数据飞轮”的运转,形成良性循环 [11] - “100万台”意味着市场教育完成,证明AI玩具能够真正融入日常生活,成为提供情感价值的“生活必需品” [11] 对AGI(通用人工智能)发展的看法 - 特斯拉CEO马斯克认为AGI最快可能于2026年出现,2030年前AI能力将超越人类总和 [9] - 从技术角度看,AGI最先逼近的很可能还是美国头部实验室体系,其算力、工程与前沿探索优势明显 [9] - 中国更容易在真实社会中快速规模化部署AI,将其嵌入产业、政务和公共服务,让AI在现实系统里长时间运行并积累优势 [9]