行业现状与核心挑战 - AI Agent因Open Claw的爆火首次被推向真实工程环境,开始尝试进入企业内部承担持续、复杂、可被验证的工作任务 [1] - 当Agent走向长期运行的真实工作流,挑战暴露,远不止提示词或工具调用,而是部署成本、交互效率以及底层模型是否适合“常驻运行” [1] - 行业形成隐含共识,试图通过更快的产品迭代解决Agent问题,方向包括更复杂的Prompt、更精细的流程编排和更丰富的工具调用 [1] - 有观点认为,若底层模型本身不适合长期运行与实时协作,再精巧的产品设计也只是放大系统的结构性上限 [1] FlashLabs的战略定位与核心理念 - 公司选择了一条更慢、风险更高的路径,回到前沿研究和模型层本身,重新审视Agent的基础假设 [2] - 公司认为AI Agent不应只是被动执行指令的工具,而应更接近被赋予目标、能够自主拆解并持续推进工作的“数字员工” [3] - 创始人认为,当下中小企业核心挑战是在组织规模受限前提下持续放大关键岗位产出能力,因此Agent需能理解OKR与KPI并主动工作 [3] - 公司战略是押注决定长期上限的基础能力,优先于短期变现,在Agent尚未定型前把决定未来上限的能力先做出来 [19][20] 核心产品SuperAgent的设计与功能 - SuperAgent是一款以持续完成复杂任务为目标的企业级AI Agent,面向销售、市场与运营等真实岗位场景 [5] - 产品设计假设为一个可以长期运行的系统,而非一次性任务执行器,首先进行意图理解,将其判断为可能包含多个阶段的复合目标 [5] - 系统会自动进入任务规划流程,对整体目标进行多步骤拆解,并在执行过程中持续维护上下文状态,避免“任务半途而废” [5] - 产品具有主动性,在目标歧义或条件不明确时会向用户发起确认,任务完成后会主动提出下一步建议 [5] - 整个任务拆解、规划、搜索与执行过程对用户保持可见,使其从“指令执行器”升级为更接近组织协作者的角色 [5] - 在部署方式上选择了云端化、开箱即用的路径,以应对使用与部署成本过高的问题 [6] - 已在销售与增长、内容与展示、GTM与运营等多个岗位场景中完成能力验证 [6] 自研端到端语音模型Chroma - 公司认为如果Agent要嵌入真实工作流,语音是不可回避的交互形态,尤其在客服、销售、支持等以实时沟通为核心的岗位中 [7] - 行业主流选择“快路径”,即通过ASR、LLM与TTS的级联式架构,但此架构在实时、长期人机协作场景中存在信息丢失和累积延迟问题 [7][8] - 公司反共识地回到模型层,尝试重新定义语音交互基础架构,花费约一年时间自研打造了端到端语音模型Chroma [8] - Chroma在同一模型体系内完成语音理解、语义推理与语音生成,避免了传统级联式方案的信息损失与多段延迟 [8] - 模型采用交错调度策略,能在实时流式对话中同时处理语音与文本标记,实现亚秒级的端到端响应 [8] - 实际测试中,模型能直接感知并表达语音中的副语言信息,如情绪、语调与停顿 [9] - 只需几秒钟参考音频即可实现高保真的个性化语音克隆,并在多轮对话中保持一致 [9] - 在真实对话场景中,Chroma的端到端延迟显著低于传统级联系统 [9] - 在Speaker Similarity (SIM)指标上,Chroma 1.0得分为0.817,优于Human baseline的0.73及多个竞品 [11] - 模型的时间性能指标包括:Time-to-First-Token (TTFT) 146.9 ms,平均每帧延迟52.3 ms,生成RTF 0.43x,总生成时长16.6s [13] 开源战略与研究理念 - 公司认为如果Agent被视为前沿研究问题,其核心能力不应只存在于公司内部 [15] - Chroma被当作一种“可被检验的研究假设”而非产品模块,其成立取决于在更复杂、更开放环境中的适应能力 [15] - 公司在发布Chroma时,与Huggingface及Github平台同步开放了模型权重与推理代码 [15] - 创始人认为,对于前沿方向,真正需要验证的是整个架构是否具备可扩展性与长期成立的可能,开源是为了更快发现尚未想清楚的部分 [16] - 模型开源后,在社区的下载量迅速超过一万次,开发者讨论焦点集中在端到端语音路径的适用性上 [16] - 开源被规划为一项长期工程,随着Chroma向2.0版本迭代,公司计划持续开放模型能力、训练思路与部分数据构建方法,并准备发起语音数据集共建计划 [17]
当AI公司都在产品层内卷,这家公司却在思考Frontier Research
36氪·2026-02-09 17:33