小模型 - 财报，业绩电话会，研报，新闻 - Reportify

小模型

搜索文档

别再迷信大模型，吴恩达亲授AI秘籍：小模型+边缘计算=财富密码

36氪· 2025-10-30 15:27

AI智能体创业机遇 - AI创业的真正机遇不在于追求更大模型，而在于开发更聪明的智能体应用[1] - 智能体通过将任务分解为子任务并制定战略计划，模拟高级人类推理[4] - 当前AI智能体市场规模约为51亿美元，预计到2032年将增至691亿美元，7年增长约17倍[4] 智能体技术优势 - 智能体利用多组提示词加知识库，联动外部工具如搜索引擎和代码执行[4] - 智能体具备自我批评能力，通过反复迭代的自我纠正提升输出质量和可靠性[4] - 智能体的优势在于专业化，通过多个小型廉价模型协同工作超越昂贵标准模型[8] 边缘计算与小模型 - 小模型市场将从2022年的9.3亿美元增长到2032年的54.5亿美元[13] - 边缘计算市场预计在2028年达到3780亿美元[13] - 边缘计算实现零延迟、零云成本和极致隐私保护，适用于医疗检测和工业质检等场景[15][16] 行业应用方向 - 创业公司应专注于自动化文档处理、优化能源消耗、提高医疗诊断准确性和简化制造流程等可衡量成果[12] - 在制造业中，可通过多模态模型即时识别微小缺陷[15] - 在零售业中，可开发导购机器人替代推销人员，实现精准营销[15] 竞争优势构建 - 创业企业的真正护城河不在于技术本身，而在于提供可信任感[19][20] - 监管机构要求可解释和透明的模型，竞争优势来自值得信赖的AI应用[22][23] - 创业者不需要教育客户技术先进性，而要说服客户信任开发的AI系统[21] 军民两用市场 - AI在军事领域的应用已成为关键创新领域，包括自主无人机、威胁检测和预测性维护等[26] - 企业家应调查军民两用技术，构建适用于民用和国防部门的基础技术[26][27] - 全球政府投资正在涌入，为初创公司创造了成熟的生态系统[26]

通用人工智能（AGI）

通用人工智能（AGI）

从2025纽约AI领袖峰会看企业AI落地：多云策略与小模型成主流选择

智通财经网· 2025-09-30 17:13

企业AI转型现状 - 企业在制定AI转型路线图方面仍处于早期阶段，超过50位技术业务领袖参与峰会[1] - 73%的参与者认为其组织在AI应用旅程中进展不一，仅18%的系统进入生产系统，9%处于早期试点[4] - 目前约80%的客户仍处于优化现有业务流程的阶段，约20%更愿意进行实验[2] AI投资回报率衡量 - 投资回报率在整个企业范围内仍是一个移动的目标，业务领袖选择定义自己的关键指标[2] - 遗留系统预计将获得最大收益，但也面临最大的启用挑战[2] - 创建无缝AI驱动客户体验的最大障碍包括不明确的投资回报率，占比33%[4] 数据就绪度与治理 - 数据就绪度是企业能否充分利用AI效益的主要制约因素[1] - 总时间中只有10%-20%用于训练模型，其余时间专注于数据准备[2] - 数据编目是AI响应可解释性的核心，也是企业在准备AI过程中的常见盲点[2] 技术架构与模型偏好 - 与大型语言模型相比，对小型语言模型的偏好有所增加，以实现完全控制模型运行位置并提高效率[3] - 多云成为企业的首选策略，业务领袖倾向于采用最佳品种方法[3] - 打包软件在未来架构中能发挥作用，许多组织尚未准备好或缺乏专业知识采取DIY方法[1] 应用场景与部署重点 - 低风险和重复性的工作负载是率先利用AI的领域，最常见应用是AI搜索和分析[3] - 尽管公司专注于面向客户的项目，但后台功能仍有成熟的颠覆空间[3] - 70%的参与者将平衡AI创新与安全列为首要解决方案优先事项[4] 监管与运营挑战 - 监管和治理政策仍是关注焦点，被视为整个企业采用AI速度的障碍[1][3] - 从安全角度来看，焦点集中在改进灾难恢复政策以及减少影子AI上[3] - 许多领袖认为在代理流程中保持人工参与至关重要，需要进行合理性检查[2]

德意志银行(US:DB)

AI搜索和分析

AI搜索和分析

从大模型叙事到“小模型时代”：2025年中国产业AI求解“真落地”

36氪· 2025-09-03 18:19

小模型市场增长与规模 - 全球小语言模型市场规模预计从2025年9.3亿美元增至2032年54.5亿美元，年复合增长率28.7% [4] - 68%的企业已部署小模型，超过45%的企业实现成本优化与准确率双提升 [4] - 国内厂商小模型发布占比从2023年23%提升至2025年56%以上，成为增长最快细分赛道 [5] 小模型技术优势与特性 - DeepSeek-R1采用专家混合技术，仅激活部分网络，显著降低推理资源占用 [1] - 小模型实现本地化部署，如1.7B模型可运行于家用路由器8GB内存，无需高端GPU [3] - 相比大模型，小模型推理成本下降90%以上，响应时间从2-3秒缩短至500毫秒内 [12] 企业应用场景与案例 - 深圳福田区部署70名AI数智员工，处理240个政务场景，公文格式修正准确率超95%，审核时间缩短90% [1] - 金融与法律领域因专用训练和高解释性更倾向采用小模型，如保险理赔使用3B模型实现零人工干预 [15][19] - 边缘计算场景中，小模型部署于工厂端与手机端，实现低延迟与低带宽消耗，如SlimLM系列在Galaxy S24运行 [15] 厂商动态与产品发布 - 2025年多家厂商发布小于10B参数模型，包括阿里Qwen3系列(0.6B/1.7B/4B/8B)、腾讯Hunyuan-Tiny系列(0.5B/1.8B/4B/7B)和华为PanGu7B [6] - 厂商提供全栈解决方案，如阿里Qwen-Agent提供模块化插件，腾讯混元Lite降低部署门槛 [24] - 开源社区推动行业化适配，如DeepSeek医疗问答模型和MiniCPM教育场景集成 [24] 小模型与大模型的协同架构 - 企业采用混合架构，小模型处理流程化任务(如OCR字段提取)，大模型处理复杂场景(如欺诈识别) [19][20] - 1B-3B模型用于移动端与边缘设备，7B-9B模型成为中大型企业私有化部署主力，30B+模型仅用于特定复杂场景 [21][22] - 研究显示40%-70%的Agent调用可通过小模型完成，MetaGPT等开源项目已验证此趋势 [13] 实施挑战与工程门槛 - 小模型泛化能力较弱，依赖高质量数据，金融行业原始语料清洗后可用率不足10% [16] - 系统集成要求高，需对接知识库与API，检索模块不准会导致回答偏差 [16] - 企业存在沉没成本顾虑，2024年LLM托管云基础设施投资达570亿美元，是API市场规模的10倍 [17]

Artificial Intelligence

Artificial Intelligence

苹果看上的公司，靠量子“邪修”给模型“瘦身”

虎嗅APP· 2025-09-02 22:00

公司融资与估值增长 - 公司完成5轮融资最新B轮融资额达1.89亿欧元[6] - 2024年3月完成2500万欧元A轮融资估值1.08亿美元[6] - 一年后估值飙升至5亿美元涨幅达5倍[6][8] - 成为西班牙最大AI初创公司之一[6][10] 核心技术CompactifAI - 采用量子物理张量网络方法压缩模型体积减少80%-95%[6][13][14] - 准确率仅下降2-3个百分点[14] - 压缩后模型推理速度提升4-12倍[17] - 推理成本降低50%-80%[17] - 支持在PC、手机、汽车等终端设备运行[6][17] 产品应用案例 - SuperFly模型压缩自1.35亿参数SmolLM2 仅剩9400万参数[6][15] - ChickBrain模型压缩自18B参数Llama3 降至3.2B参数[6][15] - Llama 4 Scout Slim在AWS调用成本降至每百万tokens 0.10美元[17] - 相比原版每百万tokens节省30%费用[17] 商业模式 - 通过AWS API提供压缩模型服务[17] - 提供企业级私有部署许可[17] - 通过服务提供商交付定制化压缩模型[17] - 主要客户为大型互联网企业AI团队[18] 行业竞争格局 - Meta发布13亿参数LLaMA微型模型[22] - Google推出2亿-7亿参数Gemma模型[22] - 微软Phi系列14亿参数模型在专业任务超越大模型[22] - 初创公司Neural Magic、Deci等聚焦模型效率优化[22][23] - 与苹果、三星、Sony等硬件巨头洽谈终端设备合作[22] 技术壁垒与挑战 - 方法基于量子多体系统数学技巧具强泛化性[11][14] - 需将大模型基础算子抽象为通用压缩工作流[14] - 端侧模型需适配不同设备的计算资源与能耗[23] - 当前技术依赖现有模型压缩非自主训练小模型[24]

1年涨五倍，被苹果看上的“模型瘦身”公司靠谱吗？

虎嗅· 2025-09-02 13:21

公司背景与融资情况 - Multiverse Computing成立于2019年最初聚焦量子计算软件解决金融领域投资组合优化和风险管理问题[5] - 公司完成5轮融资 2024年3月A轮融资2500万欧元一年多后B轮融资达1.89亿欧元估值从1.08亿美元涨至5亿美元一年增长5倍成为西班牙最大AI初创公司之一[2][4][6] - 团队40%成员拥有博士学位核心成员横跨金融量子物理与科技创业三大领域 CEO恩里克拥有数学计算机医学博士与MBA背景曾任西班牙Unnim银行副CEO[5] 技术突破与产品发布 - 核心技术CompactifAI采用量子物理张量网络方法能将大模型体积压缩80-95% 准确率仅下降2-3个百分点[8][11] - 2025年8月发布两款超小模型：SuperFly（苍蝇脑）基于1.35亿参数SmolLM模型压缩至9400万参数 ChickBrain（小鸡脑）将Llama 3.1 8B模型压缩至3.2B参数（压缩率60%）[12][13] - 压缩后模型推理速度提升4-12倍推理成本降低50-80% 在AWS云服务上每百万tokens处理费用从0.14美元降至0.10美元节省30%成本[16][18] 商业应用与合作伙伴 - 提供三种商业服务模式：AWS API访问私有部署许可以及通过服务提供商交付压缩模型[16] - 主要客户为大型互联网和软件企业AI团队应用于客服聊天机器人代码自动补全和文本分析等场景[17] - 与苹果三星 Sony HP等硬件巨头洽谈合作计划将超小模型嵌入下一代终端设备契合苹果轻量化本地模型战略[19] 行业竞争与市场定位 - 2024年起科技巨头纷纷布局小模型：Meta发布13亿参数LLaMA微型模型 Google推出2亿-7亿参数Gemma 微软Phi系列用14亿参数模型在数学编码任务超越50倍体积大模型[19] - AI推理优化成为创投圈新竞技场初创公司Neural Magic Deci OctoML等聚焦模型加速和自动选型赛道[20] - 公司技术壁垒面临挑战端侧模型需要配合设备计算资源能耗和发热等工程化问题且极度依赖原有模型能力[21][23] 技术原理与性能表现 - CompactifAI采用张量网络方法通过张量分解和矩阵低秩近似重构参数逻辑实现高维压缩并保留几乎所有信息[8][10] - 压缩后模型可在PC 手机汽车等设备运行将原需8张A100 GPU运行的LLM压缩至1-2张GPU甚至CPU上实时推理[16][18] - 已发布多个压缩模型版本包括Llama 4 70B精简版Llama 4 Scout Slim以及Llama 3系列和Mistral小模型精简版[11]

大模型压缩

大模型压缩

人形机器人，需要多少算力？

创业邦· 2025-08-30 18:08

人形机器人行业趋势 - 人形机器人被视为科技产品终极形态受到科技领域高度关注 [7] - 马斯克2021年官宣入局后仅用一年就造出原型机推动行业从边缘走向主流 [7][10] - 英伟达创始人黄仁勋通过Jetson系列计算平台持续提升机器人端侧算力 [9][15] 英伟达技术布局 - 2014年发布首款Jetson TK1计算平台算力不足1TFLOPS 开启嵌入式AI战略转型 [9][11] - 计算平台历经Xavier、Orin、Thor三代演进算力提升至2070 TFLOPS [13][15] - Jetson AGX Xavier被京东、美团用于物流机器人发那科用于工业机械臂 [13] - Orin平台（100 TFLOPS）支撑智元、宇树等人形机器人产品 [15] - 提出"物理AI"新概念拓展虚拟世界之外的硬件生态 [15] 端侧算力需求现状 - 当前人形机器人端侧算力需求集中在100-200 TFLOPS范围 [17] - 100T算力可满足抓取、分拣等简单动作及AI推理需求 [17][19] - 复杂多传感器数据融合及端到端模型需更高算力或云端辅助 [19] 小模型技术路径 - 波士顿动力Atlas采用4.5亿参数小模型（Transformer架构）处理30Hz图像/感官/语言输入 [21] - 小模型降低计算负载释放算力用于实时数据处理 [21] - 英伟达主张"小模型是智能体未来" 通过专业微调小模型执行特定任务比通用大模型更高效 [21] - 该范式可优化推理调度成为未来十年产业化落地的关键路径 [22]

英伟达(US:NVDA)

人形机器人

Jetson系列计算平台

人形机器人

Jetson系列计算平台

人形机器人，需要多少算力？

36氪· 2025-08-28 15:02

英伟达Jetson系列算力平台演进 - 推出专为人形机器人设计的Jetson T5000端侧算力平台算力高达2070 TFLOPS [1][2] - Jetson系列计算平台自2014年TK1起步算力从不足1 TFLOPS持续演进至2070 TFLOPS [6][8] - 三代核心计算平台Xavier、Orin和Thor支撑机器人产业发展 Xavier应用于京东美团物流机器人及发那科工业机械臂 [8] 人形机器人算力需求现状 - 当前人形机器人端侧算力需求集中在100-200 TFLOPS范围主要执行抓取分拣等简单动作 [14][16] - 复杂多模态传感器数据处理需更高算力现有方案依赖云端算力补充或采用端侧小模型路径 [16][19] - 波士顿动力Atlas采用4.5亿参数小模型实现30Hz图像与多模态数据实时处理 [19] 行业技术路径发展 - 端侧小模型成为重要技术方向英伟达论文指出小模型通过硬件优化可高效执行智能体任务 [19][21] - 多专业微调小模型协同方案优于通用大模型适用于人形机器人等对算力敏感领域 [21][23] - 物理AI新概念提出体现英伟达从虚拟世界向物理世界扩展的技术野心 [12] 头部企业行业影响 - 马斯克通过特斯拉人形机器人项目将概念重新推向主流一年内推出原型机 [2][4] - 英伟达Orin系列提供100 TFLOPS算力支撑智元宇树等企业人形机器人产品 [10] - 黄仁勋2014年即将AI与机器人纳入企业战略提前布局嵌入式AI计算赛道 [6]

人形机器人

Jetson Orin NX系列

人形机器人

Jetson Orin NX系列

英伟达新模型上线，4B推理狂飙53倍，全新注意力架构超越Mamba 2

36氪· 2025-08-27 10:03

产品发布 - 英伟达推出全新Jet-Nemotron小模型系列包含2B和4B两个版本[1][2] - 该系列由全华人团队打造核心创新为后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock[1][8] - 相比前代产品公司近期密集布局小模型领域上周刚发布9B大小的NVIDIA Nemotron Nano 2模型[5][7] 技术架构 - PostNAS采用训练后架构探索与适配方法在预训练Transformer模型基础上构建大幅降低开发新架构的成本和风险[9][10] - 该方法首先确定全注意力层最佳放置位置再搜索改进的注意力块设计[9][14] - JetBlock模块将动态卷积与硬件感知架构搜索结合在保持训练和推理吞吐量的同时实现显著准确率提升[18] 性能表现 - 在H100 GPU上推理吞吐量最高提升53.6倍其中Jet-Nemotron-2B相对Qwen 3-1.7B在长上下文场景解码吞吐量可达50倍提升[1][4][5] - 在六个核心维度(MMLU-pro、Math、Retrieval、Commonsense、Code、Long)表现全面领先雷达图呈现"六边形战士"特征[4] - 具体数据：Jet-Nemotron-4B在GSM8K数学测试达78.7分显著高于Qwen3-1.7B的62.8分；在代码测试EvalPlus达65.6分优于对比模型[21] 效率优化 - KV缓存大小是影响长上下文和长生成吞吐量的最关键因素 PostNAS硬件感知搜索能发现更多参数同时保持相似生成吞吐量的架构[16] - Jet-Nemotron-4B在64k上下文长度下缓存大小仅154MB 远小于Qwen3-1.7B的7168MB 最大吞吐量达1271 token/s[21] - 架构优化使模型在保持高准确率的同时实现数量级的吞吐量提升特别是在长上下文场景优势更加明显[5][16]

英伟达(US:NVDA)

Jet-Nemotron系列

NVIDIA Nemotron Nano 2模型

Jet-Nemotron系列

NVIDIA Nemotron Nano 2模型

琶洲“模术”秀专访：大模型不必“大而全”，也可“小而美”

南方都市报· 2025-08-22 11:30

公司背景与创始人经历 - 公司创始人张胜是我国IT行业早期从业者 1997年深入学习计算机专业 1999年创办《电脑自做》杂志后进入赛迪集团担任多项高管职务[3] - 公司于2013年在广州成立明确"为未来服务机器人做大脑"目标专注NLP技术领域攻关[3] - 公司核心自研产品"灵聚人工大脑"结合语义分析、知识图谱和认知计算技术具备生成式和检索式知识表达能力[3] 技术发展与行业定位 - 公司作为NLP技术服务商已为华为、阿里巴巴、软银机器人、小米等头部企业提供智能交互服务覆盖智能家居、智能音箱、服务机器人等产品[4] - 行业技术发展迅速 DeepSeek开源改变AI大模型发展模式拥有独立数据和应用场景的企业开启轻量化AI创业[4] - 公司聚焦细分场景实际需求开发灵聚灵脑迅灵大模型基于20亿组三元组知识图谱实现100%精确生成[5][8] 产品特性与竞争优势 - 采用"小模型"路线参数规模控制在十亿级别（对比通用模型千亿参数）实现成本可控与灵活部署[5] - 实现高并发快速响应通过经典NLP技术赋能大模型用有限算力支撑大体量用户并发请求[10] - 结合开放域NLU与精准生成式模型在无屏幕语音交互场景实现7秒内精准答案生成[7][8] 应用场景与商业策略 - 技术应用于企业对话式AI、数字人、服务机器人及AIoT产品实现自然语言交互无需屏幕输入[4] - 推出灵聚Agent框架和大模型个性化定制服务实现精准生成、高并发响应和高稳定性[7][10] - 从B端向C端业务延伸从行业级深入至具体场景探索AI应用更多可能性[10] 行业发展环境 - 琶洲地区提供良好产业支持政策云集头部公司为AI创业公司创造优质发展环境[11] - 头部公司对优质数据投入"无上限预算" 创业公司需聚焦细分行业具体场景寻求突破[4]

Artificial Intelligence

灵聚灵脑迅灵大模型

灵聚人工大脑

Artificial Intelligence

灵聚灵脑迅灵大模型

灵聚人工大脑

英伟达开源9B参数小模型，比Qwen3快6倍

量子位· 2025-08-19 13:25

小模型技术发展 - 英伟达推出新型小型语言模型Nemotron Nano v2 该9B模型在复杂推理基准测试上准确率与Qwen3-8B相当或更高速度提升6倍 [1][7] - 模型设计目标为兼顾推理与非推理任务的统一模型支持"思考"预算控制用户可指定允许"思考"的token数量 [8] - 模型采用生成推理过程后输出答案的机制允许跳过中间推理步骤但可能降低复杂推理准确率展示推理过程可显著提升答案质量 [10][11] 模型性能表现 - 在NeMo-Skills套件测试中 AIME25达72.1% MATH500达97.8% GPQA达64.0% LiveCodeBench达71.1% [16] - 指令遵循和长上下文测试表现优异 IFEval达90.3% RULER 128K测试达78.9% BFCL v3和HLE基准也有提升 [16] - 模型经过FP8精度预训练使用20万亿token 采用Warmup-Stable-Decay学习率调度后训练包含SFT/GRPO/DPO/RLHF [19][21] 开源与数据发布 - 公司首次开源用于创建模型的绝大部分数据包括预训练语料库 [4][23] - 发布两个基础模型NVIDIA-Nemotron-Nano-12B-v2-Base和NVIDIA-Nemotron-Nano-9B-v2-Base 均支持128k上下文长度 [22] - 预训练数据集包含66万亿token 分为Nemotron-CC-v2/Nemotron-CC-Math-v1/Nemotron-Pretraining-Code-v1/Nemotron-Pretraining-SFT-v1四个类别 [26][27] 技术实现细节 - 模型压缩后支持在单个NVIDIA A10G GPU(22GiB内存)进行128k token上下文推理采用基于Minitron的压缩策略 [25] - 通过截断思维链训练解决模型在预设思维链外"思考"的问题实现精确的思考预算控制 [12] - 预训练阶段计算量达1.45E+24 FLOPS 能耗708.3MWh 后训练阶段计算量7.25E+22 FLOPS 能耗35.6MWh [5] 行业战略布局 - 公司构建Nemotron生态采取开源策略近期连续发布Llama Nemotron Super v1.5和Nemotron Nano v2 [29][30] - 开源模型对标国内Qwen3系列展现与国外科技巨头闭源路线差异化的战略选择 [32] - 模型当前支持在线试用公司持续强化在AI领域的技术影响力 [22][33]

英伟达(US:NVDA)

Nemotron Nano v2

Nemotron Nano v2