泛心理 - 财报，业绩电话会，研报，新闻

泛心理

搜索文档

搜狐财经· 2025-05-07 03:02

阿里Qwen 3大模型发布 - 阿里发布新一代大模型Qwen 3，与DeepSeek共同形成中国开源生态"双子星"，正在取代以Llama为主、Mistral为辅的开源生态 [1] - Qwen 3的发布引发行业关注，多家AI创业公司代表就开源闭源选择、模型微调、能力瓶颈及大模型创业等问题展开讨论 [1] 开源与闭源模型选择策略 - 公司业务中90%以上场景使用本地化部署的微调模型，特定任务如数据构造、蒸馏等会直接调用GPT、豆包、Qwen等大模型的API [3] - 本地部署主要基于Qwen微调模型，根据业务需求使用不同量级模型，包括7B、32B、72B等版本，具身智能业务则采用0.5B、1.5B等多模态小模型 [3] - 选择7B模型主要考虑推理速度快、部署成本低及性能与速度的平衡 [3] Qwen模型选择原因 - 生态系统成熟稳定，推理框架(vLLM、SGLang)和微调工具链完善，相比其他模型生态更成熟 [4] - 中文支持能力强，预训练数据包含泛心理、情感陪伴相关内容，更贴合公司业务需求 [7] - 提供从0.5B到72B的完整尺寸系列，降低不同尺寸模型间的微调成本 [7] - 阿里在开源方面的持续投入和可信赖度，为公司长期依赖其模型开发提供保障 [7] 大模型使用与微调挑战 - 具身智能业务面临推理成本和生态适配挑战：英伟达方案端侧推理卡成本高，国产算力芯片生态不完善，适配周期长 [10][11] - 线上互联网业务面临模型能力和推理成本/延迟挑战：情感陪伴对多模态理解要求高，用户量快速增长带来推理成本压力，高峰时段流量达平时3-4倍 [12] 模型能力与业务适配 - 公司专注于情感、情绪化的泛心理应用场景，大多数模型厂商不会特别关注这部分数据，因此坚持进行Post-training [13] - 对基础模型要求主要是通用能力而非特定领域能力，通用能力足够好时更容易通过Post-training拟合到业务方向 [13] - Post-training会对模型其他通用能力造成一定损害，目标是将损害控制在2个点以内，核心领域能力提升10个点 [13] 开源模型发展现状 - 期待开源模型能追平闭源顶尖模型如Claude、GPT-4/4o，希望获得更多技术细节分享 [14] - DeepSeek在MoE、原生多模态、代码等方面探索前沿，Qwen和Llama更注重社区和通用性，技术选型相对稳健 [14][15] 大模型创业关键问题 - 模型与产品适配度及对AI在产品中角色的理解是关键，AI应作为后端能力而非前端界面 [17] - 正确模式应是"X + AI"而非"AI + X"，核心是挖掘用户需求并用AI解决，而非技术驱动寻找场景 [19] - 用户留存是重要观察指标，留存差往往意味着产品未抓住真实痛点或个性化不足 [19] 中国开源模型全球化发展 - Qwen、DeepSeek等中国开源模型在国际舞台崭露头角，推动技术生态驱动的全球化进程 [20] - 开源为中国企业提供弯道超车技术路径，创造"全球协作-垂直创新-生态反哺"的良性发展模式 [20]

Artificial Intelligence

Artificial Intelligence

Qwen 3

Qwen 3发布，Founder Park围绕开源模型的生态价值采访心言集团高级算法工程师左右

中国产业经济信息网· 2025-04-30 17:07

开源模型选择与部署 - 公司主要使用本地化部署的微调模型，90%以上业务依赖自研微调模型，特定任务调用GPT、豆包、Qwen等API [3] - 常用模型量级包括7B、32B和72B，具身智能业务采用0.5B、1.5B等多模态小模型 [3] - 选择7B模型因其推理速度快、部署成本低且性能速度均衡 [3] Qwen模型优势分析 - Qwen生态系统成熟稳定，推理框架和微调工具链适配完善，优于部分早期大参数模型 [4] - 中文支持优秀且预训练数据包含泛心理内容，契合情感陪伴业务需求 [5] - 提供0.5B至72B完整尺寸系列，降低多尺寸模型间的微调与测试成本 [5] - 阿里开源策略持续可靠，长期投入保障优于其他变动频繁的开源方 [5] 业务挑战与解决方案 - 具身智能领域面临推理成本高（端侧英伟达方案昂贵）与国产芯片生态适配周期长（需1-2个月）问题 [6] - 线上业务需应对情感细粒度理解（多模态融合）和高峰流量（凌晨峰值达平时3-4倍）的算力调度压力 [7] - 通过Post-training提升核心领域能力10个点，同时控制通用能力下降在2个点内 [8] 开源模型发展现状 - 开源模型（DeepSeek、Qwen、Llama）目标追平闭源顶尖模型（如GPT-4），目前仍存差距但可获取权重 [9] - DeepSeek技术路线激进，专注MoE与多模态前沿 Qwen与Llama更注重社区通用性，技术选型稳健 [11] - 期待Qwen增加技术细节公开，如数据配比等，类似Llama3与DeepSeek的技术报告 [10] 大模型创业洞察 - AI应作为后端信息处理工具而非前端界面，避免简单API嫁接旧产品 [13] - 情感类产品需深度整合多模态输入（如语音语调分析）以实现个性化，留存率是需求真实性的关键指标 [14] - 正确模式为"X+AI"（需求驱动）而非"AI+X"（技术驱动），避免伪需求陷阱 [14] 中国开源生态全球化 - Qwen与DeepSeek形成中国开源"双子星"，推动技术生态驱动的全球化进程 [1][15] - 开源模式实现"全球协作-垂直创新-生态反哺"闭环，助力泛心理AI领域突破 [15]

Artificial Intelligence

Artificial Intelligence

Qwen 3