Workflow
小模型
icon
搜索文档
3B打32B?海外病毒式传播的小模型,竟然来自BOSS直聘
机器之心· 2026-03-09 11:58
行业趋势:大模型军备竞赛与“小模型”的兴起 - 大模型行业正经历激烈的“军备竞赛”,开源与闭源阵营都在疯狂追求更大的参数量和算力,模型规模已膨胀至“近乎离谱”的程度 [1] - 过去GPT-2仅有约1.5B参数,如今GPT-4的参数规模估计已达万亿水平,GPT-5预计更大,而2026年发布的开源模型如Kimi K2.5和Ling 2.5也已达到万亿参数规模 [1][2] - 然而,“模型大就一定强”的定律正在动摇,一个仅3B参数的小模型在“50米洗车”等复杂推理问题上,表现超越了万亿级参数的大模型,凸显了模型能力与参数规模并非绝对正相关 [5][7] 核心案例:Nanbeige4.1-3B模型的突破性表现 - BOSS直聘南北阁实验室发布的Nanbeige4.1-3B模型,以仅3B的参数量,实现了通用问答、复杂推理、代码编写和深度搜索等综合能力,挑战了“小模型难通用”的刻板印象 [10][19][21] - 该模型在多项评测中显著超越同规模开源模型(如Qwen3-4B、Qwen3-8B),并在综合指标上超越了参数量大10倍的Qwen3-32B与Qwen3-30B-A3B模型 [11] - 即使与发布时间更晚、参数接近的Qwen3.5-4B模型对比,Nanbeige4.1-3B在六大核心指标上依然整体领先,展现了稳健的技术优势 [14] - 模型发布后迅速获得社区关注,登上HuggingFace文本模型趋势榜第一,并一度冲进全球模型总榜前三 [14] 技术解析:实现“小而全”的关键方法 - 研究团队采用了分阶段、分领域的优化策略,在有限的3B参数规模内系统性地整合了多项能力,并保持了各领域间的能力平衡 [21][22] - **通用能力优化**:调整了指令数据的结构比例,提高代码类样本、数学难题和复杂推理任务的占比,以强化小模型对深层逻辑的建模能力 [23] - **上下文长度扩展**:采用三阶段课程学习(32K → 64K → 256K),渐进式地让模型适应更长的依赖关系,稳定学习长距离注意力结构 [24] - **回复质量提升**:通过引入Solution Refinement(解答迭代优化)与CoT Reconstruction(思维链重构)框架,减少推理中的逻辑跳步和不连贯问题,提升思维链的忠实度和一致性 [26][27][30] 训练机制:创新的强化学习(RL)策略 - 团队创新性地将RL拆分为两个阶段:Point-wise RL和Pair-wise RL [33] - **Point-wise RL**:引入通用奖励模型对单条回答质量评分,显著降低了冗长、重复与格式错误,将LiveCodeBench-v6的格式错误率从5.27%降至0.38% [34][35] - **Pair-wise RL**:让模型与其他模型进行PK,由Pair-wise奖励模型判断回答优劣,使模型在竞争环境中迭代提升,不仅提升了Arena-Hard V2等对抗评测成绩,也对Multi-Challenge等单点评分任务带来明显收益 [35][36] 专项能力:编码与深度搜索的深度优化 - **编码能力**:采用两阶段RL策略,并设计了“门控时间复杂度奖励”机制,即时间奖励仅在解答通过所有测试用例(正确率100%)时才会被激活,确保模型先追求正确性,再优化效率 [38][39] - **深度搜索能力**:通过构建大规模、结构复杂的搜索数据集,并引入“轮次级质量控制”机制,对每一轮搜索交互的推理逻辑、工具调用和信息增益进行独立评估,训练模型形成稳定的“检索-判断-再检索”循环结构 [45][46][48] - 在深度搜索基准测试中,Nanbeige4.1-3B在xBench-DeepSearch-2505上达到75分,在GAIA (text-only)上达到69.90分,成绩接近专为搜索打造的AgentCPM-Explore-4B模型 [54][55] 性能验证:全面的基准测试与实战检验 - 在综合基准测试中,Nanbeige4.1-3B在多数测试上超越了参数规模10倍以上的模型,并在与Qwen3-Next-80B-A3B等超大模型的对比中保持竞争力,各项指标互有胜负 [50][53] - 在代码领域,其LCB-V6得分达76.9,远超Qwen3-32B的57.4;在数学领域,AIME 2025得分达90.83,优于Qwen3-30B-A3B的87.8 [51] - 在模型发布后举办的真实任务竞赛中(如LeetCode周赛和HMMT数学竞赛),Nanbeige4.1-3B的表现不仅显著优于Qwen3.5-4B,甚至超过了参数量更大的Qwen3.5-9B,有力证明了其极强的泛化与推理能力 [56][57][58] 行业影响与未来展望 - Nanbeige4.1-3B的成功表明,通过精细化的训练方法创新,小模型可以形成独立、通用的能力体系,而不再仅仅是大模型的“轻量替代品” [60][61] - 参数规模的差距正被训练范式的创新所弥补,原本依赖大模型规模优势的Agent与复杂推理能力,开始下沉到更具部署友好性的小尺度模型 [61] - 当3B模型即可稳定处理推理、编程与搜索任务时,企业侧的部署范式将被重写,为移动端、本地化及私有化部署场景打开了巨大的想象空间 [62] - 行业认为,大模型的边界在扩张的同时,小模型的效率革命也在发生,未来决定AI应用广度的关键,可能是“小参数模型所能释放的智能密度” [63][64]
马斯克频繁为中国AI站台,真相被忽略了
虎嗅APP· 2026-03-05 08:19
文章核心观点 - 马斯克近期公开赞赏中国AI模型(如阿里通义千问Qwen3.5),其行为并非单纯的技术认可,而是为其商业帝国(包括特斯拉、xAI)在多条战线上进行的精心战略布局 [9][45] - 其战略意图分为三个层面:满足特斯拉硬件产品对高效小模型的迫切商业需求;在中国市场示好并应对竞争,同时为xAI争取算力资源并施压美国政策;利用中国AI议题打击竞争对手(如Anthropic),并争夺“技术平权”的叙事主导权 [45] 一、小模型对马斯克硬件战略的价值 - **“智能密度”是关键**:马斯克称赞阿里Qwen3.5的“智能密度”,指在有限参数内实现高智能水平,该系列最小模型仅0.8B(8亿)参数,不到GPT-4的百分之一,但能流畅对话并运行于手机等设备 [12] - **匹配特斯拉核心硬件需求**:特斯拉的Optimus人形机器人和FSD自动驾驶系统均需在本地设备运行,无法依赖云端,需要低功耗、快速推理且智能在线的小模型 [13][14] - **契合第一性原理哲学**:马斯克推崇以最少资源解决本质问题,批评硅谷“算力暴力”风气,强调物理世界(机器人、汽车)存在硬件边界(尺寸、功耗、电池),无法承载万亿参数模型 [16][17][18] - **中国小模型符合要求**:阿里Qwen3.5开源的0.8B和2B参数模型,正好踩在特斯拉所需的本地高效运行点上 [15] 二、在中国市场的商业考量与算力博弈 - **中国市场至关重要**:特斯拉在中国销量占全球三分之一以上,上海工厂是其最大生产基地,2026年计划投入超200亿美元于AI算力、机器人工厂等领域 [20] - **采用中国AI提升产品体验**:特斯拉中国分公司计划在车载语音助手中搭载深度求索和字节跳动的AI模型,因自家Grok模型在美国陷入争议,可能影响中国消费者接受度 [21][22] - **向中国市场示好**:赞赏中国AI,部分目的是为了在中国市场维持品牌亲和力,以应对可能的销量下滑 [23] - **为xAI争取算力资源施压美国**:马斯克旗下xAI与SpaceX合并后估值达1.25万亿美元,但其算力规模远小于承诺投入超1.4万亿美元的OpenAI [25] - **借中国潜力批评美国基建**:马斯克公开表示中国将在AI算力领域远超其他地区,理由是“算力的尽头是电力”,指出美国电网超50%设备运行超20年、互联互通弱、电价上涨,而中国发电量是美国的2倍,总装机量达38亿千瓦,冗余度高 [38] - **战略意图**:夸赞中国AI算力潜力,实质是向美国国内的电网老化、审批缓慢等问题施压,警告其可能导致美国在AI竞赛中落后 [26][39] 三、打击竞争对手与争夺叙事权 - **借机打击商业对手Anthropic**:当Anthropic发文指控深度求索等中国AI公司“工业级蒸馏”其技术时,马斯克第一时间出面回怼,揭露Anthropic自身曾因盗用训练数据支付15亿美元赔偿金的事实 [29][30] - **时机与利益关联**:在Anthropic发布指控前,xAI被曝与五角大楼签署协议,获准部署Grok,而Anthropic则因拒绝AI用于军事而与美国国防部关系紧张 [32][33] - **一石二鸟**:马斯克抨击Anthropic,既打击了刚刚失去军方合同的竞争对手,又通过为中国AI公司“仗义执言”收割了舆论好感,塑造了自身形象 [34][35] - **争夺“技术平权”叙事权**:马斯克将OpenAI和Anthropic描绘为试图垄断和控制AI的“新垄断者”,而将开源、低成本、易获取的中国AI塑造为“技术平权”的旗手,这与其反建制、反垄断的公众人设契合 [41][42] - **利用政策变动抢占市场**:在特朗普签署行政令将Anthropic列为国家安全供应链风险后,OpenAI和xAI迅速行动填补市场真空 [40]
芯原股份20260226
2026-03-02 01:23
涉及的公司与行业 * 公司:芯原股份 [1] * 行业:半导体IP授权与芯片设计服务、人工智能(AI)、智能穿戴(AR眼镜)、智能汽车(自动驾驶/智慧座舱)、消费电子(玩具) [1][3][4][23][24][27] 核心商业模式与业务构成 * 商业模式由半导体IP授权服务与一站式芯片定制服务两大板块构成 [3] * IP授权服务帮助客户降低研发投入与项目风险,解决运营成本问题 [2][3] * 一站式芯片定制服务帮助客户降低Capex固定成本 [2][3] * Fabless企业研发费用占营收比重通常在25%~30%,产品毛利率低于40%时面临压力 [3] * IP授权收入(IP license和royalty)约占公司总收入的1/3 [2][5] * 一站式芯片定制服务(NRE和量产业务)约占公司总收入的2/3 [2][6] * 公司拥有超过500个、450个IP授权,IP体系完整性在全球处于领先位置 [17] 2025年经营业绩与财务表现 * 2025年营业收入同比增长35%至31亿元 [2][9] * 分业务看:量产业务收入增长73%,NRE增长20%,IP业务保持增长 [2][9] * 分领域看:数据处理领域收入同比增长95%,收入占比提升至34% [2][9] * 2025年下半年营业收入较上半年增长123%,较2024年下半年增长56% [10] * 2025年研发投入13.49亿元,占营收的43%,占比较上年合理下降近11个百分点 [4][14][15] * 净利润亏损同比收窄12%,2025年下半年净利润亏损较上半年收窄34% [4][16] * 净利润亏损与预告的差异主要来自非经常性项目的账面调整 [4][16] 订单情况与未来收入可见度 * 2025年四季度新签订单27亿元,较三季度增长70% [4][11] * 2025年全年新签订单59亿元,同比增长超过100% [4][11] * 2025年四季度在手订单50.75亿元,较三季度大幅提升54.245%,连续9个季度保持高位 [4][11] * 新签订单结构中,AI算力相关(AI ASIC)订单占比超过73%,数据处理领域订单占比超过50% [12] * 在手订单结构中,一站式芯片定制服务订单占比较高,其中数据处理领域占比为60% [12] * 以2025年四季度为观察点,未来一年内预计有80%的在手订单转化为收入 [13] 研发与团队情况 * 全球员工超过2000人,研发人员占比89% [2][7] * 研发人员中硕士及以上学历占比超过88% [2][7] * 采用全球化运营,设有9个研发中心和11个销售办事处 [2][7] * 研发人员98%在国内,但超过30%的收入来自国外市场 [2][7] 人工智能(AI)相关观点与布局 * 人工智能实现路径存在分歧,最主流的“涌现派”认为数据规模增长到一定程度会出现“涌现”效应 [20] * Transformer的能力边界主要体现在物理智能与复杂情境理解上 [20] * 不应仅聚焦大模型,小模型同样关键,可以小到0.27B(2.7亿),部署在手机、眼镜等端侧设备 [21] * 端侧小模型能降低传输与隐私成本,例如音频转文本后数据量可低至原始音频的1%以下 [21] * 两年前判断中国基础大模型数量将少于10个,目前中国约3个、美国约5个 [22] * 端侧微调与推理卡变得重要,端侧是“赚钱的端” [22] * 当前提及的6个先进工艺项目均为云侧,端侧产品并不必然需要4nm或6nm等先进制程 [32] * 未来两年收入仍以云端AI ASIC为主,但必须同步布局端侧AI ASIC [32] * 云端扩张最终取决于端侧应用变现能力,逻辑是“多少端带来多少云” [32] 智能眼镜(AR)市场机会与产品定义 * 2025年被视为AR智能眼镜爆发年,已与手机、电脑并列 [23] * 更合理的产品方向是按眼镜感知需求专门定制,终局将走向ASIC [23] * 定义了“可量产爆款眼镜”的关键指标:无显示、整机重量不超过30克、待机12小时、售价小于2000元 [23] * 预测2026年智能眼镜出货量在1300万至1500万副 [23] * 2025年前三季度中国智能眼镜出货1000,178万副,其中AI眼镜占80% [23] * 公司在AR眼镜方向基于供应链优势处于领先位置 [4][33] 玩具等增量市场机会 * 玩具是重要增量方向,核心价值在“情绪陪伴” [24] * 目标人群包括青年和儿童(学前教育) [24] * 产品需考虑离线能力,欧洲法规规定儿童玩具不能在线 [24] * 预测面向3-5岁幼儿的早教玩具将于2027年初量产,出货量超过500万,BOM成本50美金,售价50元人民币 [24] * 能力示例包括离线生成故事、看图识字等 [24] * 公司在AR玩具方向基于供应链优势处于领先位置 [4][33] 汽车智能化与国产替代 * 自动驾驶方向中国领跑,合资公司开始到中国寻找方案 [4][33] * 趋势从“国内负责组装、方案来自国外”转向“方案在国内形成并输出” [33] * 车载自动驾驶落地可能早于智慧座舱 [33] * 智慧座舱生态壁垒强,当前绝大部分被高通占领,国产替代更难 [27] * 目标:三年内成为新增车型自动驾驶的主流方案;五年内在新增车型中智慧座舱占比达到25% [27] 竞争格局与客户关系 * 客户类型以云服务提供商(CSP)为主,合作以production、turnkey方式交付芯片 [28][29] * 近期国内模型能力进步带动“Token出海”趋势增强,将推升国内AI硬件需求 [29] * 实际落地中推理需求占比更高,能进行大规模云端训练的仍是少数 [29][30] * 互联网大厂自研芯片团队的扩张不等同于全面“自己做完”,产业分工(Design Light)趋势明确 [31] * 公司IP业务服务400多家客户,覆盖面带来的经验与规模效应是护城河 [31] * 同时推进6颗4nm项目的能力在行业内极为稀缺 [31] * 主要挑战在于行业竞争抬升薪酬水平带来的人才争夺,而非客户将工作拿回去自己做 [31] 公司战略与外部环境判断 * 2026年是关键窗口期,可能是近几年中美关系相对较好的一年,应把握窗口期 [4][33] * 11月3号(美国大选)之前的时间节点较为重要 [33] * 公司通过组织稳定性、企业文化(如经营波动时管理层减薪、员工不减薪不裁员)来保持团队稳定 [31]
大/小/微模型赋能先进制造:实践与思考
大连理工大学机械工程学院· 2026-02-26 13:15
报告行业投资评级 - 报告未明确给出对“AI赋能先进制造”行业的整体投资评级 [1][4][7] 报告的核心观点 - 人工智能已成为先进制造(AI4M)全生命周期技术体系重塑的核心驱动力,是工业4.0的关键技术,被世界主要工业强国列为重点发展布局方向 [8][12][14] - 根据参数规模,AI模型可分为大模型(>10M参数)、小模型(10k~10M参数)和微模型(<10k参数),它们在先进制造的工程材料、设计优化、加工装配、控制运维四大阶段中各有侧重,其中小模型和微模型是当前应用研究的主流 [82][85][86][87][160] - 在先进制造领域,AI模型的应用研究论文数量自2014年至2024年增长了约20倍,其中控制运维领域论文数量最多,设计优化领域相对较少,反映出领域知识与应用成熟度的差异 [159][160] AI4M的背景意义 - 先进制造是衡量国家科技发展水平、关乎国民经济和国防安全的重要标志,各国均推出国家级战略,如中国的《中国制造2025》、美国的《国家先进制造业战略》等 [8][10][11] - “AI4M”已成为工业4.0的核心技术,美国、德国、法国、日本、中国等主要工业国均在国家层面制定了AI发展战略,明确其在智能设计、智能制造等关键领域的优先地位 [12] AI4M的基础知识 - 人工智能发展历程经历了三次热潮与两次寒冬,当前正进入以大模型为核心的新阶段 [19][22][23] - AI模型可按多种维度分类,包括学习方式(监督/无监督/强化/迁移学习)、参数规模(大/小/微模型)、功能类型(感知/决策/生成型AI)和实时性要求(实时/近实时/离线AI) [28][29] - 人工智能(AI)、机器学习(ML)、深度学习(DL)和神经网络(ANN)是层层包含的关系,其中深度学习使用多层神经网络自动提取复杂数据的高层次特征 [31] AI4M的研究进展 - 报告详细阐述了多种AI模型在先进制造场景下的原理、计算复杂度和适用性,包括多项式拟合、浅层神经网络、深度学习神经网络(DNN)、卷积神经网络(CNN)、图神经网络(GNN)、长短期记忆网络(LSTM)、强化学习(RL)、主动学习(AL)和增量学习(IL) [37][44][46][48][56][58][63][66][69][73] - 互联网平台(如Bilibili日数据量约7.8 PB)与智能工厂(日数据量约2.0 TB)的数据量级比约为10^3~10^4:1,存在显著差异 [82][83] AI4M的案例展示 - **工程材料**:大模型如图神经网络GNoME发现了220万个新的稳定材料晶体结构,将材料发现效率提高一个数量级 [93][94];小模型/微模型如随机森林用于超材料设计,可大幅缩短研发周期 [96][97] - **设计优化**:物理信息神经网络(PINN)小模型可从5000个仿真云图中推断流体场 [104][105];Bi-LSTM小模型预测摩擦系数,均方误差较传统方法降低50%以上 [107][108];AI混合微模型对核电阀门性能预测精度>95% [110][111];动力学引导卷积循环网络小模型优化矿用电铲轨迹,规划时间<20ms,单斗能力≥150吨 [115][116];图神经网络小模型重构应力场/流场,精度≥99% [118][119] - **加工装配**:U-Net小模型实现CNC刀具毫秒级实时路径规划 [126][127];自编码器-孪生网络(AE-SNN)小模型实现工艺选择准确率89%,可制造性分析准确率100% [129][130];3DCNN-LSTM小模型预测加工路径精度达94% [133];CNN微模型预测焊接质量,R²达0.9879 [135][136];VGG大模型用于制造过程监控,分类准确性达95.58% [137][138] - **控制运维**:概率图模型小模型实现无人机结构健康实时监测 [145][146];机理-数据混合AI小模型在50毫秒内完成三维全场信息重构 [152][153];基于Transformer的“预训练+微调”大模型建立了通用智能运维新模式,普适性强 [155][156] - **大语言模型(LLM)设计优化评估**:报告评估了DeepSeek、豆包、Gemini、Grok、Kimi、ChatGPT等主流大模型在一维、二维、十维函数预测及单目标/多目标优化任务中的表现,发现LLM展现出作为智能调度器与方法集成器的潜力 [165][166][167][168][169][173] AI4M的瓶颈所在 - 报告内容未明确列出具体的瓶颈,该部分内容在提纲中出现但正文中未详细展开 [7][81] AI4M的科学问题 - 报告内容未明确列出具体的科学问题,该部分内容在提纲中出现但正文中未详细展开 [7][81] AI4M的发展方向 - 报告内容未明确列出具体的发展方向,该部分内容在提纲中出现但正文中未详细展开 [7][81] 思考与总结 - 报告内容未提供明确的思考与总结,该部分内容在提纲中出现但正文中未详细展开 [7][81]
学界大佬吵架金句不断,智谱和MiniMax太优秀被点名,Agent竟然能写GPU内核了?!
AI前线· 2026-01-23 17:18
文章核心观点 - 文章围绕“通用人工智能(AGI)能否成为现实”展开了一场深度辩论,两位来自学术界与产业界的一线研究者基于对算力、模型架构、应用落地的不同理解,阐述了各自对AGI定义、发展现状及未来趋势的判断 [6][7] - 尽管对AGI的实现路径存在分歧,但双方均认为,相较于抽象定义,AI技术(尤其是智能体)的实际“实用性”及其对工作方式的变革才是关键,并一致看好小模型、开源模型、新硬件及多元化架构的未来发展 [15][23][55] 关于AGI定义的争论 - **定义视角**:AGI的定义主要有两种主流视角,一种关注模型覆盖的认知任务广度,另一种则从经济角度出发,看其是否引发新的工业革命并改变生产方式 [14][35] - **共识与分歧**:双方达成共识,认为AGI的具体定义并不重要,关键在于它是否改变了人类的工作方式 [15][55]。丹·傅认为,以5-10年前的标准看,当前的语言模型在写代码、生成语言等方面已实现早期设想的AGI,并可能引发软件工程领域的工业革命 [34]。蒂姆·德特默斯则认为,当前关于AGI的狂热预测源于特定社群的信息茧房,缺乏对计算现实的考量 [36] 算力增长的潜力与极限 - **算力极限论**:蒂姆·德特默斯认为“计算是物理的”,内存迁移、带宽、延迟及冯·诺依曼瓶颈决定了算力不可能无限扩张,指数增长终将放缓,Scaling Law也不例外 [10][37]。他指出,从DRAM到HBM等硬件创新已接近物理极限,量化技术(如4位精度)也已发展至尽头,功能和硬件潜力均已被充分挖掘 [40][42][43] - **算力潜力论**:丹·傅认为当前谈“算力见顶”为时过早,现实系统中算力被严重低估和浪费,大量性能消耗在内核调度与系统开销上 [12]。他指出,当前评测的“最强模型”多基于一两年旧的算力集群训练,未能代表当下硬件的真实上限 [12][49]。通过新一代硬件(性能提升约2–3倍)、系统与工程优化(算力利用率提升约3倍)及更大规模集群(规模效应约10倍)三者叠加,理论上可用算力有接近90倍的提升空间 [13][18][46] 智能体(Agent)的发展与应用 - **拐点时刻**:丹·傅指出,2025年6月是Agent发展的关键拐点,当时代码智能体成功攻克了被视为编程领域终极难题之一的“GPU内核编程”,使其个人工作效率提升了5倍,其团队也能快速完成原本需耗时数月的复杂系统开发 [17][20][62][63] - **高度通用性**:蒂姆·德特默斯认为代码Agent本身就是高度通用的Agent,因为代码几乎可以描述和解决所有数字化问题,并断言超过90%的代码和文本本应由Agent生成 [20][66] - **应用与管理范式**:双方将Agent比作“需要精细化管理的实习生”,人类需提供明确背景、拆解任务并设定约束,而将注意力聚焦在方向把控与结果校验上 [21]。丹·傅强调,专业知识越深厚的专家,Agent能为其创造的效率增量就越显著 [21][74] - **必备技能**:蒂姆·德特默斯强调“要么善用Agent,要么被时代淘汰”,使用Agent并有效检查、编辑其输出(约10%的工作)将成为未来核心技能,能带来巨大的生产效率提升 [20][67][68] 人工智能行业未来趋势预判 - **小模型与开源模型**:双方均认为小模型将成为行业新热点,针对特定领域数据训练的小模型部署难度低、性能出色,将更具吸引力 [23][81]。开源模型(如GLM-4.7)的能力将进一步飞跃,并开始媲美最优秀的前沿模型 [23][26][83] - **硬件多元化与专业化**:硬件赛道将走向多元化发展,训练与推理环节的专业化分化会加剧 [23][24]。推理芯片将更侧重在手机、笔记本电脑等终端设备本地运行 [61] - **架构创新**:Transformer架构独霸天下的时代将落幕,状态空间模型(SSM)、线性注意力及各类混合架构等新架构将登上舞台 [25][84][86]。中国团队在架构创新上更敢于探索多种可能性,通过架构创新或极致性能让开源模型脱颖而出 [26][85] - **多模态与端侧AI**:多模态领域(如视频生成)及端侧AI(在笔记本电脑、手机等设备上运行的AI)预计将有进一步发展 [23][83] - **中美发展路径差异**:相比美国“先做出最强模型,再等待应用出现”的思路,中国模型团队的发展思维更务实,更关注模型能否真正落地并在现实场景中产生价值 [26][55]
谷歌版两门「小钢炮」开源,2.7亿参数干翻SOTA
36氪· 2025-12-19 14:17
谷歌发布Gemma 3家族新模型 - 公司在“大模型”领域发布Gemini 3 Pro和Flash后,继续在端侧“小模型”发力,于近期发布了两项与端侧相关的新技术 [1] - 新发布的两个模型均属于Gemma 3家族,分别是T5Gemma 2和FunctionGemma,两者均为“小模型”但专攻方向不同 [3] T5Gemma 2:架构创新与性能 - T5Gemma 2是一个底层架构创新,是首个开源的多模态长上下文编码器-解码器模型,其最小规模为270M–270M参数 [1] - 公司开源了T5Gemma 2的三种预训练模型规模:270M–270M、1B–1B以及4B–4B [5] - 该模型采用编码器-解码器架构,与当前主流的仅解码器架构不同,代表了AI技术领域的“另一条路” [4][14] - 在多个基准测试中,T5Gemma 2展现出强大的多模态性能,超越了公司自己的Gemma 3模型 [8] - 在代码、推理和多语言等任务的通用能力上,T5Gemma 2整体上优于对应规模的Gemma 3模型 [9] - 相较于Gemma 3和第一代T5Gemma,T5Gemma 2在生成长上下文内容的质量上有显著提升 [9] - 在预训练阶段的性能可能超过对应体量的Gemma 3模型,而在后训练阶段则取得了显著更优的表现 [11] 编码器-解码器架构的回归与优势 - 在GPT、Llama、Gemini、DeepSeek等仅解码器架构主导的时代,T5Gemma 2是对经典Transformer中编码器-解码器路线的回归与现代化改造 [14][15][16][17][18][19][20] - 编码器-解码器架构采用“先读懂再动笔”的机制,能强迫模型先消化输入再生成输出,这种机制天生更严谨,有助于减少“幻觉”问题 [32] - 该架构在多模态处理方面具有天然优势,编码器可以作为处理图像信号的“眼睛”,比强行塞给仅解码器模型处理更顺畅 [33][34] - 在手机等端侧算力有限的环境中,编码器-解码器架构往往能用更少的参数达到与大型仅解码器模型相当的效果,效率更高 [35] - 公司并未从零训练T5Gemma 2,而是采用“模型适配”技术,利用已训练的Gemma 2或Gemma 3解码器模型作为种子,将其权重映射到新结构中,大幅降低了计算成本 [36] FunctionGemma:功能与场景创新 - FunctionGemma是一个专为函数调用优化的模型,参数规模为2.7亿,可在手机、浏览器及其他设备上运行 [1] - 该模型是对模型“技能”的专项训练,类似于剥离大模型的知识类能力,只保留针对性的函数调用功能 [7] - FunctionGemma旨在解决大模型落地痛点,让模型“不仅要能聊,还要能干活”,能够输出结构化数据去调用外部API或工具 [37][40] - 该模型为AI智能体设计,擅长多步骤推理和执行任务,且极致轻量化,可直接运行在手机等低功耗边缘设备上,作为系统的“控制中枢” [40] - 它是一个专门设计的“神经路由器”,旨在解决云端大模型在延迟、隐私和成本上的固有缺陷 [42] - 模型专注于函数调用这一特定任务的极致优化,通过小型化和专业化,将智能下沉至网络边缘 [44] - 其270M参数规模在当今时代显得微不足道,但证明了在特定领域,小模型通过高质量数据微调可达到甚至超越大模型的表现 [44] - 模型剔除了大量通用世界知识,专注于解析JSON、匹配函数签名和处理参数类型等技能 [45] 端侧部署与移动端战略 - FunctionGemma专为在移动设备上运行而设计,其270M参数在FP16精度下的权重大小约为540MB,仅占现代Android旗舰机总内存的5%-7%,可在后台常驻 [46][48] - 通过Int8量化,模型大小可降至约270MB;通过Int4量化,可降至约135MB,使其能在入门级甚至嵌入式设备上流畅运行 [49][50][51] - 公司发布该“小”模型背后,隐藏着对未来AI计算架构的深刻思考及在移动操作系统控制权争夺中的防御性布局 [52] - 在移动互联网向意图驱动发展的下一阶段,FunctionGemma试图让AI成为通用的用户界面,用户可直接表达意图而非点击图标打开应用 [53][54][55] - 通过让模型直接学习应用的API定义,开发者只需暴露工具,FunctionGemma就能理解并操作这些工具 [56] - 公司通过开源FunctionGemma,意在制定一套AI与应用交互的标准协议,如果所有Android开发者都按其格式定义工具,Android系统将成为强大的智能体平台,加深公司护城河 [57][58] 应用验证与行业影响 - 公司提供了两个参考实现来验证FunctionGemma的能力,展示了其在游戏和系统控制领域的潜力 [59] - 在系统控制场景中,经微调的FunctionGemma在将自然语言指令转换为Android系统意图的任务上,准确率达到85%,远超未微调基座模型的58% [60][61] - 在名为“Tiny Garden”的游戏Demo中,FunctionGemma展示了任务分解能力,可将一句语音指令拆解为一系列函数调用,且整个过程完全离线,无需联网 [62] - 对于开发者,FunctionGemma提供了低成本、高隐私的方案,将智能体能力集成到普通应用中,无需昂贵服务器开销 [64] - 对于手机厂商,270M的参数量是完美的“甜点”,既能利用现有NPU硬件,又不会过度挤占系统资源,为打造“AI原生操作系统”提供了理想基础 [64] - 对于公司自身,这是在AI时代捍卫Android生态控制权的关键一步 [64]
数字科技产业观察 | 双周要闻(2025.12.02—12.16)
每日经济新闻· 2025-12-16 18:45
部委动态 - 工信部修订印发《产业技术基础公共服务平台管理办法》,明确服务平台申报单位应明确服务行业领域及范围,重点行业包括装备、石化化工、钢铁、有色、建材、轻工、纺织、食品、医药、新一代信息技术、生物技术、新能源、新材料、新能源汽车、人工智能、元宇宙、脑机接口等,服务范围涵盖计量检测、标准验证与检测、质量可靠性试验检测、认证认可、产业信息、知识产权、技术成果转化等,该办法自2025年12月5日起施行 [1] - 国家发展改革委、国家数据局等多部门联合发布关于加强数据要素学科专业建设和数字人才队伍建设的意见,旨在建立数据领域学科专业设置调整机制和人才培养模式,激活数据要素赋能新质生产力的创新引擎作用,促进教育链、人才链与产业链、创新链融合发展 [1] - 生态环境部印发《产品碳足迹因子数据库建设工作指引》,以指导社会主体探索数据研制或数据库开发,支撑产品碳足迹管理体系构建 [1] - 工信部就《元宇宙产业综合标准化体系建设指南(2026版)》公开征求意见,目标到2028年制定国家标准和行业标准20项以上,到2030年制定50项以上,以初步构建并完善支撑元宇宙产业创新发展的标准体系 [1] 地方行动 - 山东省在“十五五”规划建议中提出,推动深海空天、具身智能、生物制造、脑机接口、量子科技、元宇宙、氢能等成为新的经济增长点,并支持济南、青岛建设未来产业先导区 [1] - 江苏省元宇宙标准化技术委员会在南京成立,将重点承担元宇宙标准化路线规划、发展策略制定及前沿标准前期研究等顶层设计工作 [1] - 上海市2025年度关键技术研发计划“元宇宙”专项对15个项目予以立项,市科委资助总额4600万元,其中2025年拨款1840万元 [2] 成员单位动态 - 博瑞传播拟以6649.02万元受让每经科技51%股权,交易完成后将成为其控股股东,旨在联手每经传媒打造智能传播头部企业 [2] - 智谱正式开源其工业级语音合成模型GLM-TTS,该系统仅需3秒语音样本即可复刻人声,支持多情感表达,推动AI语音技术走向产业深度融合 [2] 行业动态 - 北京GPU公司摩尔线程于12月5日在科创板上市,成为“国产GPU第一股”,发行7000万股新股,占发行后总股本14.89%,每股发行价114.28元,开盘价650.00元/股,较发行价大涨468.78%,总市值达3055亿元,为2024年以来科创板最大规模IPO [2][3] - 谷歌宣布向Google翻译引入Gemini模型能力,推出可通过耳机进行的实时语音翻译Beta版,并提升文本翻译的语境理解能力,同时通过Google Labs推出一款名为“Disco”的实验性AI浏览器 [3] 院士观点 - 中国工程院外籍院士张亚勤提出,新一轮人工智能是信息智能、物理智能和生物智能的融合,并预测基础大模型最终将不超过10个 [3] - 中国工程院院士谭建荣强调,在重视大模型的同时不应忽略小模型,指出大模型的根基在于“小模型”和建模能力,并预判行业将转向“面向行业、面向产品”的小模型与智能体 [3][4] 行业洞察 - 图灵奖得主Yann LeCun认为,硅谷对不断“堆大”大型语言模型的痴迷是一条死路,并指出当前AI智能水平有限,他正将学术声誉押注于构建“世界模型”这一不同技术路线 [4] - 斯坦福大学教授李飞飞在访谈中深度解读,认为空间智能是通往通用人工智能的关键技术,并回顾其构建的ImageNet项目如何成为AI领域的大数据拐点 [4] 技术与应用 - 工业和信息化部正式公布我国首批L3级有条件自动驾驶车型准入许可,两款车型将在重庆、北京指定区域开展上路试点,标志着L3级自动驾驶从测试迈入商业化应用的关键一步 [4] - 数学家陶哲轩与团队在多种AI工具辅助下,仅用48小时便解决了尘封50年的数学难题Erdős1026 [4]
谭建荣院士:要重视大模型,但千万别忽视小模型
新浪财经· 2025-12-09 14:29
核心观点 - 中国工程院院士谭建荣在EVOLVE 2025峰会上指出,人工智能落地需兼顾大模型与小模型,仅靠大模型难以实现有效落地 [1][3] - 谭建荣强调,除模型、算力、算法外,知识工程是实现人工智能的核心关键技术之一 [1][4] 人工智能模型发展路径 - 行业专家提出,在重视大模型的同时,千万不能忽视小模型的作用 [1][3] - 观点认为,没有小模型只有大模型,人工智能想要落地也很困难 [1][3] 人工智能核心技术要素 - 实现人工智能的核心要素除模型、算力、算法外,还包括知识工程 [1][4] - 知识可分为定性与定量两类,模型被定义为定量的知识 [1][4] - 大模型需要花费算力对不同数据进行训练以产生知识 [1][4] - 大数据和大模型的背后,需要大的算力作为支撑 [1][4]
英伟达4B小模型击败GPT-5 Pro!成本仅1/36
量子位· 2025-12-08 14:07
文章核心观点 - 英伟达团队开发的4B小模型NVARC在ARC-AGI 2竞赛中以27.64%的成绩超越GPT-5 Pro的18.3%,登顶榜首,其单任务成本仅约20美分,远低于GPT-5 Pro的超过7美元,展现出小模型在特定领域通过方法创新实现高性能与高性价比的潜力 [1][2][4] 竞赛成绩与成本优势 - NVARC在ARC-AGI 2公开榜的成绩为27.64%,显著高于GPT-5 Pro的18.3% [2] - NVARC每任务成本仅约20美分,大约是GPT-5 Pro单任务成本(超过7美元)的1/36,成本优势巨大 [4] 技术路径:零预训练与合成数据 - NVARC采用零预训练深度学习方法,不依赖大规模通用数据集进行前期预训练,规避了预训练模型的领域偏见和数据依赖问题 [5] - 团队将复杂推理移至离线的合成数据管道,通过大规模合成高质量数据来训练较小的模型 [9][10] - 具体方法包括利用GPT-OSS-120B等大型模型大规模制作高质量的合成谜题,并将简单谜题混合生成更复杂的新谜题 [14][15] - 通过分阶段独立验证的复杂推理管线,团队建立了一个包含超过320万增强样本的合成数据集,其中每个样本最多有7对输入/输出 [17][18] - 合成数据集的构建详情如下表所示,最终NVARC full部分包含约178.6万个样本,占总样本数(约325.5万)的54.9% [19] 模型架构与训练方法 - 模型核心推理模块基于改进版ARChitects方法,选用小参数模型Qwen3-4B,并通过对话式模板简化谜题理解 [19] - 训练时借助NeMo RL框架和Megatron后端进行监督微调 [20] - 针对ARC-AGI 2“每个任务都是全新规则”的特点,引入了针对每个问题进行测试时微调(TTFT)的LoRA微调技术,让模型在解题前快速适应 [21] - 对ARChitects方法的改进包括在解码阶段对DFS算法进行批处理优化,修复结果非确定性问题,并统一了8种数据增强操作来评估候选解 [22][23] 方法论的启示与行业意义 - 在特定领域任务中,经过针对性优化的小模型性能不逊色于大模型,并具备成本、速度、适配性与领域聚焦的优势 [25] - 将正确的方法用在正确的地方,可以实现更大的价值,这提示行业关注方法创新而非单纯追求模型参数规模 [25]
新阶层·新经济丨万同集团董事长王俊桦:逐浪创新,以专业能力护航品牌梦想
搜狐财经· 2025-12-03 15:59
公司发展历程 - 2014年公司创始人王俊桦抓住电商兴起机遇,以“小小的蚊子,大大的梦想”为定位创立蚊子会 [2] - 2016年公司敏锐转向主播孵化领域,在淘宝平台排名前十的主播中有三位出自该公司 [3] - 2019年公司从主播孵化转向服务品牌,为宝洁、玛氏、百威等国际品牌提供本土化服务 [4] - 2021年公司升级为万同集团,旗下包含蚊子会、万同公关、一莎品牌咨询等多个分支 [4] 业务模式与战略转型 - 公司初期坚持“授人以鱼不如授人以渔”,手把手教授商家经营店铺 [3] - 转型品牌服务基于懂中国市场、了解年轻消费者喜好、扎根电商和直播行业的优势 [4] - 公司将国际品牌的“Big idea”转化为抖音、小红书等平台用户听得懂的“人话” [4] 行业洞察与管理理念 - 公司提出大数据会撒谎而小数据才真实的观点,认为小数据能揭示用户画像关键细节 [7] - 在大模型时代,公司主张根据不同行业和企业需求选择小模型以优化垂直大模型 [7] - 公司对新技术秉持开放而审慎的态度,敢于接受但不盲目跟风,已探索投资虚拟主播技术 [7] 成功要素与区域优势 - 公司将信心与人才视为在浙江茁壮成长的关键支柱 [7] - 信心来源于每天可见的成功故事、企业间关于科技与AI的交流以及政府的大力支持 [7] - 公司认为在浙江以外地区难以招募到所需人才,因此坚持扎根浙江 [7]