推理加速

搜索文档
WaveSpeedAI 成泽毅:AI Infra 本来就是一门能挣钱的生意
Founder Park· 2025-06-10 20:59
核心观点 - 技术人追求价值证明而非安稳,大厂天花板促使成泽毅创业[1][2] - 推理加速是AI商业化关键环节,海外市场更认可Infra价值[15][20] - 通过开源验证技术市场潜力,全球化策略从Day One确立[11][21] - 轻资产团队+重系统架构,实现成本1/5的极致性价比[28][46] - 视频生成市场爆发前夜,降本需求催生百亿美元蓝海[42][47] 职业转折与创业动机 - 阿里两年升两级后遭遇成长瓶颈,团队膨胀稀释个体价值[1][6][7] - 创业公司商业化路线模糊,被动等待市场的心态成束缚[3][17] - GitHub项目24小时700星验证技术独立价值[8][11] - 国内Infra价值被低估,海外客户愿为稳定高效付费[12][20] 公司定位与商业模式 - 专注图片/视频生成推理加速,25年2月上线3月营收5万美元[4] - 寄生式合作策略:嵌入大客户系统分润,避免平台竞争[32] - 7人全栈团队实现小时级响应,远程协作降低沟通成本[29][30] - 与Datacrunch/Replicate等合作,技术授权+算力弹性调度[32][35] 技术架构与竞争优势 - 10万行代码自研PyTorch原生推理框架,拒绝ONNX复杂化[34] - 延迟从6秒优化至2.4秒,单位成本降至行业1/5[46][48] - 服务Freepik日处理200万图像,GPU支出节省数千美元/小时[48] - 系统兼容Google Veo/Minimax等主流商业模型[32] 市场洞察与行业趋势 - AI视频生成成本痛点:Veo 2模型10秒视频成本达5美元[43] - 全球视频生成市场规模2030年将达百亿美元,CAGR超30%[42] - 多模态技术需求爆发,开发者计划赋能超1万名创作者[55][56] - 国内企业忽视长期维护,海外认可Infra为商业化突破口[19][20] 运营策略与未来规划 - 先盈利后融资:4月实现数百万美元天使轮时已现金流为正[4][27] - 开源引流+快速商用验证,拒绝重资产GPU采购[24][35] - 规划Agent生态/建站工具,强化开发者支持体系[56] - 定位中国AI全球化范本,目标国际市场份额[57][58]
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
机器之心· 2025-04-29 11:22
多模态大模型推理加速框架Dynamic-LLaVA - 提出Dynamic-LLaVA框架,针对多模态大模型在不同推理模式下实现高效推理,包括预填充阶段以及有无KV Cache的解码阶段 [9][12] - 在预填充阶段计算开销减少约75%,无KV Cache解码阶段计算开销减少约50%,有KV Cache解码阶段GPU显存占用减少约50% [9] - 基于LLaVA-1.5进行1个epoch的监督微调,确保模型能高效运行在稀疏化推理路径上 [14][27] 技术实现方案 - 预填充阶段引入可训练的轻量化图像预测器,通过决策分数保留前k大视觉token实现稀疏化 [15][17] - 解码阶段对视觉token采用相同稀疏化处理,对输出文本token分两类处理:最后一个token完整输入LLM decoder,其他历史token进行稀疏化 [19][23] - 使用KV Cache的解码阶段采用"Online KV Cache压缩"方法,仅判断当前新token的KV激活是否需要加入KV Cache [21] 性能表现 - 在视觉理解任务上性能几乎不下降,部分任务如SciQA上7B和13B版本性能提升2.3%和0.8% [31] - 生成能力基准测试显示PPL仅变高0.3,METEOR略有提升,同时实现大幅推理效率提升 [33][35] - 实际推理测试中13B版本预填充时间从0.83s降至0.37s,4K解码时间从13368s降至6184s,显存占用显著降低 [36][37] 应用前景 - 随着多模态大模型在复杂推理、长思维链领域的发展,Dynamic-LLaVA在更长输出、更复杂推理场景下将体现更明显优势 [42] - 框架可与其他高效视觉projector方法集成,如表2中与TokenPacker结合进一步减少视觉token同时保持性能 [32]