小模型
搜索文档
人形机器人,需要多少算力?
创业邦· 2025-08-30 18:08
人形机器人行业趋势 - 人形机器人被视为科技产品终极形态 受到科技领域高度关注 [7] - 马斯克2021年官宣入局后仅用一年就造出原型机 推动行业从边缘走向主流 [7][10] - 英伟达创始人黄仁勋通过Jetson系列计算平台持续提升机器人端侧算力 [9][15] 英伟达技术布局 - 2014年发布首款Jetson TK1计算平台 算力不足1TFLOPS 开启嵌入式AI战略转型 [9][11] - 计算平台历经Xavier、Orin、Thor三代演进 算力提升至2070 TFLOPS [13][15] - Jetson AGX Xavier被京东、美团用于物流机器人 发那科用于工业机械臂 [13] - Orin平台(100 TFLOPS)支撑智元、宇树等人形机器人产品 [15] - 提出"物理AI"新概念 拓展虚拟世界之外的硬件生态 [15] 端侧算力需求现状 - 当前人形机器人端侧算力需求集中在100-200 TFLOPS范围 [17] - 100T算力可满足抓取、分拣等简单动作及AI推理需求 [17][19] - 复杂多传感器数据融合及端到端模型需更高算力或云端辅助 [19] 小模型技术路径 - 波士顿动力Atlas采用4.5亿参数小模型(Transformer架构) 处理30Hz图像/感官/语言输入 [21] - 小模型降低计算负载 释放算力用于实时数据处理 [21] - 英伟达主张"小模型是智能体未来" 通过专业微调小模型执行特定任务比通用大模型更高效 [21] - 该范式可优化推理调度 成为未来十年产业化落地的关键路径 [22]
人形机器人,需要多少算力?
36氪· 2025-08-28 15:02
英伟达Jetson系列算力平台演进 - 推出专为人形机器人设计的Jetson T5000端侧算力平台 算力高达2070 TFLOPS [1][2] - Jetson系列计算平台自2014年TK1起步 算力从不足1 TFLOPS持续演进至2070 TFLOPS [6][8] - 三代核心计算平台Xavier、Orin和Thor支撑机器人产业发展 Xavier应用于京东美团物流机器人及发那科工业机械臂 [8] 人形机器人算力需求现状 - 当前人形机器人端侧算力需求集中在100-200 TFLOPS范围 主要执行抓取分拣等简单动作 [14][16] - 复杂多模态传感器数据处理需更高算力 现有方案依赖云端算力补充或采用端侧小模型路径 [16][19] - 波士顿动力Atlas采用4.5亿参数小模型 实现30Hz图像与多模态数据实时处理 [19] 行业技术路径发展 - 端侧小模型成为重要技术方向 英伟达论文指出小模型通过硬件优化可高效执行智能体任务 [19][21] - 多专业微调小模型协同方案优于通用大模型 适用于人形机器人等对算力敏感领域 [21][23] - 物理AI新概念提出 体现英伟达从虚拟世界向物理世界扩展的技术野心 [12] 头部企业行业影响 - 马斯克通过特斯拉人形机器人项目将概念重新推向主流 一年内推出原型机 [2][4] - 英伟达Orin系列提供100 TFLOPS算力 支撑智元宇树等企业人形机器人产品 [10] - 黄仁勋2014年即将AI与机器人纳入企业战略 提前布局嵌入式AI计算赛道 [6]
英伟达新模型上线,4B推理狂飙53倍,全新注意力架构超越Mamba 2
36氪· 2025-08-27 10:03
产品发布 - 英伟达推出全新Jet-Nemotron小模型系列 包含2B和4B两个版本[1][2] - 该系列由全华人团队打造 核心创新为后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock[1][8] - 相比前代产品 公司近期密集布局小模型领域 上周刚发布9B大小的NVIDIA Nemotron Nano 2模型[5][7] 技术架构 - PostNAS采用训练后架构探索与适配方法 在预训练Transformer模型基础上构建 大幅降低开发新架构的成本和风险[9][10] - 该方法首先确定全注意力层最佳放置位置 再搜索改进的注意力块设计[9][14] - JetBlock模块将动态卷积与硬件感知架构搜索结合 在保持训练和推理吞吐量的同时实现显著准确率提升[18] 性能表现 - 在H100 GPU上推理吞吐量最高提升53.6倍 其中Jet-Nemotron-2B相对Qwen 3-1.7B在长上下文场景解码吞吐量可达50倍提升[1][4][5] - 在六个核心维度(MMLU-pro、Math、Retrieval、Commonsense、Code、Long)表现全面领先 雷达图呈现"六边形战士"特征[4] - 具体数据:Jet-Nemotron-4B在GSM8K数学测试达78.7分 显著高于Qwen3-1.7B的62.8分;在代码测试EvalPlus达65.6分 优于对比模型[21] 效率优化 - KV缓存大小是影响长上下文和长生成吞吐量的最关键因素 PostNAS硬件感知搜索能发现更多参数同时保持相似生成吞吐量的架构[16] - Jet-Nemotron-4B在64k上下文长度下缓存大小仅154MB 远小于Qwen3-1.7B的7168MB 最大吞吐量达1271 token/s[21] - 架构优化使模型在保持高准确率的同时 实现数量级的吞吐量提升 特别是在长上下文场景优势更加明显[5][16]
琶洲“模术”秀专访:大模型不必“大而全”,也可“小而美”
南方都市报· 2025-08-22 11:30
公司背景与创始人经历 - 公司创始人张胜是我国IT行业早期从业者 1997年深入学习计算机专业 1999年创办《电脑自做》杂志后进入赛迪集团担任多项高管职务[3] - 公司于2013年在广州成立 明确"为未来服务机器人做大脑"目标 专注NLP技术领域攻关[3] - 公司核心自研产品"灵聚人工大脑"结合语义分析、知识图谱和认知计算技术 具备生成式和检索式知识表达能力[3] 技术发展与行业定位 - 公司作为NLP技术服务商已为华为、阿里巴巴、软银机器人、小米等头部企业提供智能交互服务 覆盖智能家居、智能音箱、服务机器人等产品[4] - 行业技术发展迅速 DeepSeek开源改变AI大模型发展模式 拥有独立数据和应用场景的企业开启轻量化AI创业[4] - 公司聚焦细分场景实际需求 开发灵聚灵脑迅灵大模型 基于20亿组三元组知识图谱实现100%精确生成[5][8] 产品特性与竞争优势 - 采用"小模型"路线 参数规模控制在十亿级别(对比通用模型千亿参数)实现成本可控与灵活部署[5] - 实现高并发快速响应 通过经典NLP技术赋能大模型 用有限算力支撑大体量用户并发请求[10] - 结合开放域NLU与精准生成式模型 在无屏幕语音交互场景实现7秒内精准答案生成[7][8] 应用场景与商业策略 - 技术应用于企业对话式AI、数字人、服务机器人及AIoT产品 实现自然语言交互无需屏幕输入[4] - 推出灵聚Agent框架和大模型个性化定制服务 实现精准生成、高并发响应和高稳定性[7][10] - 从B端向C端业务延伸 从行业级深入至具体场景 探索AI应用更多可能性[10] 行业发展环境 - 琶洲地区提供良好产业支持政策 云集头部公司 为AI创业公司创造优质发展环境[11] - 头部公司对优质数据投入"无上限预算" 创业公司需聚焦细分行业具体场景寻求突破[4]
英伟达开源9B参数小模型,比Qwen3快6倍
量子位· 2025-08-19 13:25
小模型技术发展 - 英伟达推出新型小型语言模型Nemotron Nano v2 该9B模型在复杂推理基准测试上准确率与Qwen3-8B相当或更高 速度提升6倍 [1][7] - 模型设计目标为兼顾推理与非推理任务的统一模型 支持"思考"预算控制 用户可指定允许"思考"的token数量 [8] - 模型采用生成推理过程后输出答案的机制 允许跳过中间推理步骤但可能降低复杂推理准确率 展示推理过程可显著提升答案质量 [10][11] 模型性能表现 - 在NeMo-Skills套件测试中 AIME25达72.1% MATH500达97.8% GPQA达64.0% LiveCodeBench达71.1% [16] - 指令遵循和长上下文测试表现优异 IFEval达90.3% RULER 128K测试达78.9% BFCL v3和HLE基准也有提升 [16] - 模型经过FP8精度预训练 使用20万亿token 采用Warmup-Stable-Decay学习率调度 后训练包含SFT/GRPO/DPO/RLHF [19][21] 开源与数据发布 - 公司首次开源用于创建模型的绝大部分数据 包括预训练语料库 [4][23] - 发布两个基础模型NVIDIA-Nemotron-Nano-12B-v2-Base和NVIDIA-Nemotron-Nano-9B-v2-Base 均支持128k上下文长度 [22] - 预训练数据集包含66万亿token 分为Nemotron-CC-v2/Nemotron-CC-Math-v1/Nemotron-Pretraining-Code-v1/Nemotron-Pretraining-SFT-v1四个类别 [26][27] 技术实现细节 - 模型压缩后支持在单个NVIDIA A10G GPU(22GiB内存)进行128k token上下文推理 采用基于Minitron的压缩策略 [25] - 通过截断思维链训练解决模型在预设思维链外"思考"的问题 实现精确的思考预算控制 [12] - 预训练阶段计算量达1.45E+24 FLOPS 能耗708.3MWh 后训练阶段计算量7.25E+22 FLOPS 能耗35.6MWh [5] 行业战略布局 - 公司构建Nemotron生态 采取开源策略 近期连续发布Llama Nemotron Super v1.5和Nemotron Nano v2 [29][30] - 开源模型对标国内Qwen3系列 展现与国外科技巨头闭源路线差异化的战略选择 [32] - 模型当前支持在线试用 公司持续强化在AI领域的技术影响力 [22][33]
4o-mini华人领队也离职了,这次不怪小扎
量子位· 2025-08-19 09:17
核心人才流动 - OpenAI核心研究员Kevin Lu离职 加入Thinking Machine Lab [1][2][3] - Kevin Lu曾领导OpenAI 4o-mini项目开发 并参与o1-mini和o3模型研发 [7][9] - Thinking Machine Lab已集结多位OpenAI前核心成员 包括John Schulman、Barrett Zoph等 [4][22] 技术研究方向 - Kevin Lu专长强化学习和小模型 其论文《决策Transformer》引用量达2254次 [10][11] - 研究观点认为互联网数据比Transformer架构更重要 强调序列数据预测价值 [13][14] - 提出强化学习未来方向在于新数据源和奖励机制创新 [15] 初创公司动态 - Thinking Machine Lab完成20亿美元种子轮融资 估值达120亿美元 [17][19] - 公司由OpenAI前CTO Mira Murati创立 团队覆盖AI主要研究方向 [18][22] - 在硅谷人才争夺中保持团队稳定 拒绝10亿美元薪酬挖角 [20] 产品与技术成果 - 4o-mini为多模态推理小模型 支持图文输入和长上下文 具有高效低成本特点 [7] - Kevin Lu参与开发的o1-mini和o3模型体现其小模型专长 [9] - Thinking Machine Lab尚未公开技术成果 引发行业期待 [21]
英伟达新研究:小模型才是智能体的未来
量子位· 2025-08-18 17:16
大模型与小模型对比 - 大语言模型在Agent任务中处理重复、专业化子任务时消耗大量计算资源,成本高、效率低、灵活性差 [1] - 小语言模型在性能够用的前提下,使Agent任务执行更经济灵活 [2] - 实测显示6.7B参数的Toolformer调用API后性能超越175B的GPT-3 [3] - 7B参数的DeepSeek-R1-Distill推理表现优于Claude3.5和GPT-4o [4] 小模型优势 - 体积小巧,可在GPU上高效共享资源,并行运行多个工作负载并保持性能隔离 [8] - 更低显存占用,支持超分配机制,提升并发能力 [9] - GPU资源可灵活划分,实现异构负载弹性调度和整体资源优化 [10] - 优先调度小模型的低延迟请求,预留资源应对大模型调用,优化整体吞吐与成本控制 [11] 任务优化与部署 - Agent任务多为重复性、可预测、范围明确的操作(如文档总结、信息提取、模板编写、工具调用) [14][16] - 为每个子任务选择专业微调的小模型,避免大模型资源浪费 [15][16] - 运行70亿参数小模型比700-1750亿参数大模型便宜10-30倍 [20] - 小模型计算资源占用低,适合本地或边缘部署,大模型依赖中心化云计算 [20] 争议与挑战 - 反对观点认为大模型通用理解能力更强,在专业任务中表现更佳 [22] - 小模型可通过微调达到可靠性,且复杂问题可分解为简单子任务,降低对大模型通用能力的需求 [23][24] - 质疑小模型经济性:大规模部署时大模型的规模经济可能更优 [26] - 行业惯性使创新仍集中在大模型,小模型面临基础设施适配、市场认知度低、评估标准缺失等挑战 [28][29] 转型方法 - 采集大模型运行数据,脱敏后保留使用模式 [32] - 聚类工作负载识别常见子任务 [33] - 选择小模型并匹配GPU分配策略,定制数据微调后部署 [34] - 构建持续反馈闭环优化性能和资源利用率 [35] 行业讨论 - 简单任务(如Amazon产品退款)使用小模型更具成本效益 [36] - 小模型在偏离预设流程时可能不够鲁棒,需预先考虑更多变数 [37] - 小模型遵循"一个程序只做好一件事"的设计哲学,但功能多样性可能增加操作复杂度 [37][38][39]
上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障
机器之心· 2025-07-08 08:04
研究团队与背景 - 作者团队由上海交通大学和苏黎世大学的研究人员组成,包括第一作者张宇昂(研究方向为可微分物理机器人、多目标追踪和AIGC)、共同一作胡瑜(研究方向为无人机视觉导航)和宋运龙博士(研究方向为强化学习、最优控制)[1] - 通讯作者为上海交通大学的林巍峣教授和邹丹平教授[1] - 研究成果已在《Nature Machine Intelligence》在线发表[3] 技术突破 - 提出了一种融合无人机物理建模与深度学习的端到端方法,首次将可微分物理训练的策略成功部署到现实机器人中[2] - 实现了无人机集群自主导航,在鲁棒性、机动性上大幅领先现有方案[2] - 训练一次,多机共享权重,零通信协同飞行[7] - 在单机场景中,网络模型在未知复杂环境中的导航成功率高达90%,相比现有最优方法展现出更强的鲁棒性[9] - 在真实树林环境中,无人机飞行速度高达20米/秒,是基于模仿学习的现有方案速度的两倍[10] - 所有测试环境均实现zero-shot零样本迁移,无需GPS或者VIO提供定位信息即可运行,并能适应动态障碍物[10] 技术细节 - 使用12×16超低分辨率深度图作为输入[12] - 仅使用3层CNN的超小神经网络实现端到端自主飞行,可部署于150元廉价嵌入式计算平台[12] - 抛弃复杂无人机动力学,用极简质点动力学模型,通过可微物理引擎训练端到端网络[12] - 端到端可微仿真训练:策略网络直接控制无人机运动,通过物理模拟器实现反向传播[21] - 轻量设计:整套端到端网络参数仅2MB,可部署在150元的计算平台(不到GPU方案的5%成本)[21] - 高效训练:在RTX 4090显卡上仅需2小时即可收敛[21] 多机协同表现 - 在多机协同场景中,将网络模型部署到6架无人机上执行同向穿越复杂障碍和互换位置任务[14] - 策略在同向穿越门洞、动态障碍物和复杂静态障碍物的场景中展示了极高的鲁棒性[14] - 在多机穿越门洞互换位置的实验中,展现出了无需通信或集中规划的自组织行为[14] 方法对比 - 当前具身智能的主流训练范式主要分为两类:强化学习(RL)与模仿学习(IL),但这两类方法在效率与可扩展性方面均存在明显瓶颈[30] - 强化学习多采用model-free策略,完全不考虑环境或控制对象的物理结构,导致数据利用率极低,影响训练的收敛速度与稳定性[31] - 模仿学习依赖大量高质量的专家演示作为监督信号,获取这类数据通常代价昂贵,且难以覆盖所有可能场景[31] - 本研究提出的基于可微分物理模型的训练框架,有效融合了物理先验与端到端学习的优势[30] 训练效率与性能 - 在相同硬件平台上,本方法在约2小时内即可实现收敛,训练时间远低于PPO与Agile所需的训练周期[39] - 仅使用约10%的训练数据量,本方法在策略性能上就超越了使用全量数据的PPO + GRU方案[39] - 在训练过程中,本方法展现出更低的方差与更快的性能提升,收敛曲线显著优于两类主流方法[39] - 在真实或近似真实的避障任务中,本方法的最终避障成功率显著高于PPO与Agile,表现出更强的鲁棒性与泛化能力[39] 后续研究 - 研究团队后续改进与拓展了可微物理引擎框架与训练方法,实现了国际首个基于单目FPV摄像头的端到端视觉避障系统[52] - 在真实室外环境中实现最高6m/s飞行速度,无需建图即可自主导航[52] - 该研究已在《IEEE Robotics and Automation Letters》发表[53]
AI在工业铺开应用,英伟达的“AI工厂”并非唯一解
第一财经· 2025-06-19 21:47
英伟达AI工厂战略 - 英伟达CEO黄仁勋提出AI工厂概念,计划在中国台湾和德国建设配备1万颗Blackwell GPU的超级计算机和工业AI云,并在欧洲建设20余个AI工厂[1] - AI工厂与传统数据中心不同,专为AI创造价值而设计,部署英伟达GPU并搭配Omniverse仿真平台[2] - 英伟达通过Omniverse平台切入工业AI领域,与西门子、Ansys等软件厂商合作,应用于汽车仿真、数字工厂规划等场景[3] - 公司战略是通过Omniverse平台吸引软件和制造厂商,带动硬件销售和算力消耗[3][4] 工业AI应用现状 - 工业领域AI渗透率当前仅7%,预计2028年将提升至25%[8] - 小模型已广泛应用于设备故障运维、工艺优化、AI质检等场景,在工业AI支出中占比预计保持60-70%[9][10] - 大模型应用主要集中在流程助手、知识库应用和经营决策分析等场景[9] - 合成生物领域有公司通过自研小模型实现研发效率指数级提升,每年AI技术投入占研发投入10-20%[10] 工业AI技术路线 - 英伟达路线侧重仿真和数字孪生,提供虚拟平台而非直接AI应用[5] - 其他厂商聚焦大模型和小模型应用,解决工厂现场实际问题[5][6] - 大模型有望用于串接小模型和跨系统整合,多模态结合是发展方向[11] - 工业场景碎片化特点导致技术路线多样化,不存在单一解决方案[5][6] 工业AI算力需求 - 国内企业倾向自建私有云数据中心,主要考虑数据安全因素[13] - DeepSeek一体机受工业企业青睐,今年国内销售额预计达千亿量级[14] - 小模型算力需求多元,从CPU到GPU不等,大型企业训练大模型需要高端显卡[15] - 工业对算力需求大规模增长还需2-3年,当前算力并非主要瓶颈[15] 行业发展趋势 - 制造业企业数字化预算减少,AI预算单独列出趋势明显[8] - 数字孪生平台在工厂建设前预训练可缩短投产时间,但目前国内缺乏对标产品[5] - 工业AI发展面临数据缺乏、场景碎片化和部分企业数字化未完成等挑战[15] - 边缘算力需求将随小参数模型应用增加而提升[15]
端侧AI的未来:苹果能否凭借“小模型”逆袭?
36氪· 2025-06-10 14:26
WWDC 2024观察:苹果AI战略与开发者生态 苹果AI战略现状 - 公司今年WWDC在AI领域的表现被评价为"慢热"且"underwhelming",与行业对AI创新的高速追逐形成反差 [1] - 预计重点展示端侧AI技术,采用"小模型"策略——在设备本地运行的轻量化AI模型,而非依赖云端大模型 [1] - 第三方开发者对苹果AI功能反应平淡,Origin首席产品官表示缺乏强烈兴奋感 [1] 端侧AI的争议 - 技术优势:本地处理带来更快响应速度、更低云服务成本、更强数据隐私保护 [2] - 开发者质疑点: - 性能不足:育儿应用Bobo创始人认为小模型难以满足精细化需求,图形应用Word Swag测试显示性能缺陷 [2] - 微调限制:开发者可能无法用专有数据深度定制模型 [2] - 有限应用场景:卡路里追踪应用Cal AI考虑用于简单文字问答,约会应用RIZZ持观望态度 [3] App Store生态危机 - Epic诉讼案裁决允许开发者引导用户进行外部支付,冲击苹果30%佣金商业模式 [4] - 美国可能效仿欧洲出台法规强制开放第三方应用商店,威胁App Store垄断地位 [4] - 公司引用数据称2024年App Store为开发者创造1.3万亿美元收入(开发者获90%),但未能缓解不满情绪 [4] 创新力质疑 - Vision Pro头显因高价和小众定位仍属利基产品,未达"未来计算平台"预期 [6] - 去年发布的Apple Intelligence功能(如AI增强Siri)落地进度迟缓,被视为对竞品的被动应对 [6] - 行业质疑公司是否面临创新"失速",或在进行未公开的战略转型 [5] 潜在优势与挑战 - 硬件基础:iPhone作为最大分发平台+自研芯片实力,支撑端侧AI战略 [8] - 关键突破点:需升级开发者工具、打造打动消费者的AI体验、重建开发者信任关系 [8] - 行业关注点:小模型战略能否助公司在AI竞赛中重返领导地位仍存疑 [8]