Workflow
Qwen 3发布,Founder Park围绕开源模型的生态价值采访心言集团高级算法工程师左右
中国产业经济信息网·2025-04-30 17:07

开源模型选择与部署 - 公司主要使用本地化部署的微调模型,90%以上业务依赖自研微调模型,特定任务调用GPT、豆包、Qwen等API [3] - 常用模型量级包括7B、32B和72B,具身智能业务采用0.5B、1.5B等多模态小模型 [3] - 选择7B模型因其推理速度快、部署成本低且性能速度均衡 [3] Qwen模型优势分析 - Qwen生态系统成熟稳定,推理框架和微调工具链适配完善,优于部分早期大参数模型 [4] - 中文支持优秀且预训练数据包含泛心理内容,契合情感陪伴业务需求 [5] - 提供0.5B至72B完整尺寸系列,降低多尺寸模型间的微调与测试成本 [5] - 阿里开源策略持续可靠,长期投入保障优于其他变动频繁的开源方 [5] 业务挑战与解决方案 - 具身智能领域面临推理成本高(端侧英伟达方案昂贵)与国产芯片生态适配周期长(需1-2个月)问题 [6] - 线上业务需应对情感细粒度理解(多模态融合)和高峰流量(凌晨峰值达平时3-4倍)的算力调度压力 [7] - 通过Post-training提升核心领域能力10个点,同时控制通用能力下降在2个点内 [8] 开源模型发展现状 - 开源模型(DeepSeek、Qwen、Llama)目标追平闭源顶尖模型(如GPT-4),目前仍存差距但可获取权重 [9] - DeepSeek技术路线激进,专注MoE与多模态前沿 Qwen与Llama更注重社区通用性,技术选型稳健 [11] - 期待Qwen增加技术细节公开,如数据配比等,类似Llama3与DeepSeek的技术报告 [10] 大模型创业洞察 - AI应作为后端信息处理工具而非前端界面,避免简单API嫁接旧产品 [13] - 情感类产品需深度整合多模态输入(如语音语调分析)以实现个性化,留存率是需求真实性的关键指标 [14] - 正确模式为"X+AI"(需求驱动)而非"AI+X"(技术驱动),避免伪需求陷阱 [14] 中国开源生态全球化 - Qwen与DeepSeek形成中国开源"双子星",推动技术生态驱动的全球化进程 [1][15] - 开源模式实现"全球协作-垂直创新-生态反哺"闭环,助力泛心理AI领域突破 [15]