轻量化模型 - 财报，业绩电话会，研报，新闻

轻量化模型

搜索文档

OpenAI持续布局轻量化，云知声（09678.HK）端侧小型语音模型领跑本土创新

中金在线· 2025-10-09 13:11

行业趋势 - 人工智能领域正朝着模型轻量化和高效化方向发展，旨在提升多模态交互能力并挖掘终端设备应用潜力 [1] - OpenAI推出GPT-5Pro及轻量语音模型GPT-realtime-mini，印证了全球性技术趋势，并将焦点引向具备即时响应与隐私保护能力的语音交互技术 [1] 公司技术实力 - 公司构建了通用大模型-行业大模型-端侧轻量化模型的全栈技术架构 [2] - 基于山海大模型蒸馏技术的0.5B参数端侧语音模型已稳定服务于吉利、智己等多家车企的量产车型 [2] - 该0.5B参数模型技术瘦身显著降低了对端侧设备推理硬件的要求，可在算力为30TOPS的8295平台上流畅运行，实测响应速度低至350ms [2] - 公司凭借高效推理、隐私保护及多场景适配的技术优势，获得2025AIEra企业创新大奖与X未来商业品牌奖双重认可 [2] - 公司医疗专用轻量化模型UniGPT-Med-U1在MedBench评测中位列第一，性能超越GPT-4等模型 [3] 商业表现 - 2025年上半年，以端侧语音模型为核心的大模型相关业务收入同比激增457%，突破1亿元人民币 [3] - 大模型相关业务收入占总营收比重提升至24.4% [3] - 公司端侧语音模型已形成车载、医疗、交通、政务四大落地矩阵，服务覆盖千万级终端设备 [3] 战略布局 - 公司采用独特的芯云一体战略布局 [1] - 公司技术路径体现为中国AI企业的创新逻辑，即以全栈技术能力为根基，通过大模型技术下沉和场景深度适配实现差异化竞争 [4] - 公司近日与南宁市人民政府共建东盟总部项目，将端侧语音模型融入东南亚交通枢纽与跨境医疗场景，进行全球化布局 [4]

GPT - realtime - mini

GPT - realtime - mini

仅0.27B参数，谷歌开源史上最小Gemma 3，手机能跑，25次对话耗电不到1%

36氪· 2025-08-15 18:15

产品发布与定位 - 谷歌推出史上最小的Gemma 3开源模型，拥有2.7亿个参数，是一款轻量级模型 [2] - 该模型底层设计以特定任务微调为目标，具备强大的指令跟踪和文本能力 [2] - 模型尺寸和性能使其非常适合离线、基于网页的创意任务，如驱动睡前故事生成器网页应用 [3] 核心性能与技术特点 - 模型架构轻量而强大，共有2.7亿个参数，其中嵌入参数有1.7亿个，Transformer模块参数有1亿个 [4] - 得益于256k个token的庞大词汇量，模型能够处理特定和稀有的token，是可在特定领域和语言中进一步微调的优质基础模型 [4] - 模型具备极致能效，INT4量化版本在Pixel 9 Pro SoC上进行25次对话仅消耗0.75%的电量，成为谷歌最节能的Gemma模型 [4] - 模型提供量化感知训练检查点，支持以INT4精度运行且性能损失极小，便于在手机等资源受限设备上部署 [4] 市场竞争力与表现 - 在指令执行能力测试中，Gemma 3 270M超越了尺寸更大的Qwen2.5 0.5B Instruct模型，并与Llama 3.2 1B模型能力比肩 [1] - 该模型适合需要高容量、定义明确任务、精打细算成本、快速迭代部署或有隐私保护需求的用户选择 [5] - 轻量化模型正在打破参数规模决定性能的固有认知，展现出小模型遵循指令的能力以及微调后的威力 [5] 行业趋势与战略意义 - 谷歌Gemma开源模型加速迭代，此次Gemma 3 270M的推出填补了其轻量模型版块 [5] - 从轻量而强大的模型入手，用户可以构建精简、快速且运行成本显著降低的生产系统 [5]

轻量化模型

Software

Gemma 3 270M

Qwen2.5 0.5B Instruct

Qwen2.5 0.5B Instruct

Llama 3.2 1B

谷歌版小钢炮开源！0.27B大模型，4个注意力头，专为终端而生

量子位· 2025-08-15 14:44

模型发布与市场反应 - 谷歌开源Gemma 3 270M模型参数规模为2.7亿其中1.7亿为嵌入层参数 1亿为Transformer模块参数 [1][14] - 模型可直接在浏览器本地运行无需联网支持创意内容生成如睡前故事 [3] - 发布后引发市场关注网友误以为参数规模为270B 实际仅为0.27B [4] 架构与性能特征 - 采用紧凑高效架构仅包含4个注意力头较Qwen 3 0.6B模型少12个注意力头 [7] - 词汇量达25.6万token 可处理特定领域罕见词汇适合进一步微调 [15] - 支持INT4量化运行在Pixel 9 Pro手机25轮对话仅消耗0.75%电量能效表现突出 [17] - 提供量化感知训练检查点 INT4精度下性能损耗极微适合资源受限设备部署 [19] 功能与应用场景 - 开箱即用精准遵循指令微调后可释放文本分类和数据提取能力 [12][13] - 支持OCR应用可将图片或PDF转换为结构化Markdown格式 [6] - 适用于情感分析、实体提取、查询路由、文本结构化、创意写作及合规检查等批量任务 [27] - 支持完全本地化运行无需云端数据传输保障用户隐私 [24] 开发与部署优势 - 微调仅需数分钟支持快速迭代实验数小时内可完成用例配置 [1][24] - 可通过Hugging Face、Ollama、Kaggle等平台获取模型 [25] - 支持使用Hugging Face、UnSloth或JAX工具进行个性化微调 [28] - 可部署于低成本基础设施或终端设备大幅降低推理成本 [24][27] 行业合作与案例 - Adaptive ML与SK Telecom合作案例使用Gemma 3 4B模型微调后在多语言内容审核任务中超越更大规模专有模型 [20][21] - 轻量化模型策略适用于明确界定的任务可释放更高效率 [23]

从感知能力提升到轻量化落地，具身这条路还要走很长一段时间~

自动驾驶之心· 2025-07-02 10:05

具身智能技术发展趋势 - 感知能力升级与多模态融合成为技术发展重点，触觉感知在灵巧手领域发力，力控技术提升操作精细度及反馈能力 [1] - 大模型驱动机器人认知能力提升，基于多模态数据增强感知、自主学习与决策规划能力，轻量化模型设计成为行业落地关键需求 [1] - 仿真环境与数据生态建设加速技术突破，通过物理世界模拟构建机器人认知，sim2real技术推动仿真与现实对齐 [1] 行业生态与资源整合 - 国内外200+具身公司与研究机构形成技术社区，覆盖斯坦福、清华等高校及智元机器人、优必选等头部企业 [6] - 社区整合40+开源项目、60+数据集及主流仿真平台，提供感知、交互、强化学习等全栈技术路线 [6][20][24][26] - 行业数据生态建设聚焦本体多样化，双足、轮式等形态数据需抽象共同特征以促进技术通用性 [2] 技术应用与研究方向 - 多模态大模型在理解与生成领域快速发展，覆盖图像、视频、音频等多模态数据交互 [38][40] - 机械臂抓取、双足/四足机器人等硬件方案技术成熟，开源项目助力系统快速搭建 [51][53][55] - 视觉-语言-动作（VLA）模型与Diffusion Policy成为前沿研究方向，推动机器人任务泛化能力 [43][45][47] 行业服务与支持体系 - 提供研报、书籍、零部件品牌等资源汇总，覆盖工业、医疗、物流等应用场景 [14][16][18] - 建立技术交流与人才对接平台，包含岗位推荐、直播分享及研究方向选择指导 [7][11][57][59]