10万美元成本训练的小模型，在特定任务超越GPT-4o，延迟低99倍

公司概况 - Fastino是一家专注于开发"任务特定语言模型"（TLMs）的早期初创公司，由连续创业者Ash Lewis和George Hurn-Maloney共同创立[4] - 公司技术团队来自谷歌DeepMind、斯坦福大学、卡内基梅隆大学及苹果等知名机构[6] - 已累计获得近2500万美元融资，包括1750万美元种子轮和700万美元前种子轮[3] 技术方案 - 采用低端游戏GPU训练TLM模型，平均成本不到10万美元[3] - TLM模型在特定任务上性能媲美大型语言模型，推理速度比GPT-4o快99倍（100ms vs 4000ms）[8] - 基准测试显示TLM模型的F1分数比GPT-4o高出17%[9] - 模型架构基于Transformer但引入任务专精优化，消除参数冗余和架构低效[8] 产品特点 - 首批模型覆盖文本摘要、函数调用、文本转JSON等企业核心需求[10] - 提供PII屏蔽、文本分类、脏话过滤、信息提取等具体功能[17] - 支持部署在虚拟私有云、本地数据中心或边缘设备[13] - 已在金融、医疗、电子商务等行业应用，获得财富500强企业采用[13] 商业模式 - 采用订阅制收费而非用量定价，个人开发者每月1万次免费请求[11] - Pro用户每月10万次请求收费45美元，团队用户300万次请求收费1275美元[11] - 极低的模型运行成本支撑其定价策略[13] 行业趋势 - 大语言模型训练成本高达数千万美元，部署和推理成本同样高昂[7] - 小模型在成本、推理时延和特定任务性能上具有显著优势[14] - 类似企业包括Cohere、Mistral、阿里云Qwen3和Writer的Palmyra系列[14] - 对于高并发、低延迟要求的应用场景，小模型更具经济性[14]