Workflow
闪电说
icon
搜索文档
亲身体验后,我们总结了全网首份AI语音输入法红黑榜|锦秋AI实验室
锦秋集· 2026-01-08 22:57
文章核心观点 - 语音输入法的核心价值在于能否将口语准确、忠实地转换为可供信息接收者理解的书面文本,而不仅仅是省事 [1] - 当前AI语音输入法在基础听写准确率上普遍达标,但在会议纪要、中英混输、数字单位、专有名词等复杂场景下表现分化显著,分水岭在于能否“忠实转写”而非“自作聪明”地改写 [36] - 经过5轮7款产品的测评,typeless在综合表现上断层领先,豆包输入法为全能省心型选择,而部分产品在关键场景存在语义级错误的高风险 [37][38] 横评工具与测评方法 - 测评涵盖7款产品:搜狗输入法、智谱输入法、Whisper flow、闪电说、讯飞输入法、豆包输入法、typeless [6] - 测评采用5个真实场景的统一题库,包括日常聊天、会议纪要、中英混输、数字与单位、专有名词 [2] - 测评维度包括文本一致性、局部质量和整体体验,评分标尺为0-5分 [7][11] - 所有工具均采用最新版默认配置,不调参数,不手动修正结果 [11] 各场景测评结果 日常聊天转写(基础准确率) - 第一梯队(几乎可直接发)包括搜狗、讯飞、豆包、typeless、智谱,关键信息转写稳定 [10] - 搜狗、讯飞、豆包更忠实保留“哈/那个/哦对了”等口语词,聊天味浓 [12] - 智谱会轻微“去口语化”,使文本读起来更干净 [13] - typeless在忠实转写基础上会主动进行自动分段和补全标点,提升可读性 [14] 会议纪要(长句与结构化) - 此场景考验长句、多层结构、专有名词和分工列表的准确转写与结构化能力 [16] - 第一梯队为typeless和豆包输入法 [17] - typeless能在忠实转写的基础上,自动将内容整理成编号清晰的会议纪要模板 [19] - 豆包输入法则近乎逐字忠实转写,标点断句自然 [19] - 搜狗、讯飞、闪电说出现明显翻车,如将“不再加了”误转为“不在家了”,导致语义事故 [18][25] 中英混输(技术口述) - 此场景对英文术语、数字状态码、URL、邮箱等硬字段的准确率要求极高,一处错误即可导致指令失效 [21] - 第一梯队为豆包输入法和typeless,核心术语与指令逻辑保持准确 [26] - typeless还能将信息自动结构化成清单,便于技术沟通 [26] - 搜狗输入法出现致命误转,如将“login callback”转写为“logan comeback”,导致整段内容不可用 [26] - 智谱输入法在关键指令顺序上翻车,如将“fix”和“test”的先后顺序转反 [26] 数字、单位与时间 - 此场景对数字、金额、时间、比例等数据的准确性要求极为严格,错误可能导致执行事故 [28] - 第一梯队包括豆包、搜狗、智谱、typeless,关键数字和单位几乎全对 [31] - 搜狗和豆包将“35到45分钟”转写为“35~45”,更符合书面表达 [31] - typeless自动将预算、流程等拆分成清单,适合直接作为通知发布 [31] - 闪电说出现预算级事故,如将“4200”误转为“3200” [31] 专有名词(人名、机构名、品牌名) - 此场景是语音输入法的“照妖镜”,专有名词错误会严重影响文本可信度且难以自动纠正 [33] - typeless表现最佳,RL、Agent、Meta、斯坦福、Pokee AI、朱哲清等专有名词几乎全部准确,标点段落舒适,可直接作为引用稿 [37] - 智谱输入法整体准确,主要瑕疵为公司名拼写(如Pokee→poke) [37] - 豆包输入法出现人名同音错字(朱哲清→朱泽清)和品牌名漂移(Pokee→Poky) [37] - 搜狗、闪电说、Whisper flow、讯飞错误较多,如将RL听成url、概念听成数字(“期望回报”→“7万回报”),导致专业感丧失 [37] 产品总结与定位 - **typeless**:被定位为“纪要型天花板”,结构化、排版和长句稳定性强,会议纪要、通知等场景几乎可直接使用,但对链接、邮箱等硬字段偶尔会进行智能补全,需核对 [40] - **豆包输入法**:被视作“全能型助手”,整体最忠实于原话,会议纪要、数字、技术口述等场景稳定,断句自然,是省心的全场景选择 [38][40] - **智谱输入法**:在聊天场景会轻微优化口语,使文本更干净,多数轮次稳定,但技术口述中可能出现指令顺序错误,适合表达整理而非严格记录 [40] - **讯飞输入法**:基础听写可靠,但格式感一般,在会议纪要和中英混输场景下编号、大小写、字段格式容易混乱,适合随手记 [40] - **Whisper flow**:排版和结构化能力突出,但专有名词和技术词汇错误密集,甚至出现语义级误听,属于格式满分但内容需严格校对的类型 [40] - **搜狗输入法**:日常聊天和数字场景表现优秀,口语保留自然,但专业场景易出现语义事故级错误,适合聊天而非记录 [40] - **闪电说**:多轮出现关键否定句翻转、预算数字错误、技术字段乱码,不推荐用于任何高风险场景 [40]
AI 语音输入法,正在偷偷挤走「键盘」
36氪· 2025-12-22 17:03
行业趋势:AI驱动的语音输入技术演进 - 语音输入正从传统的替代性输入方式,转变为与AI模型直接交互的前置层,其价值在于与后续AI反馈的无缝衔接[3] - 技术路线从传统的自动语音识别转向大语言模型,核心任务从“识别声音”转变为“理解意图”,使得机器更能适应人的自然表达习惯[18] - 语音作为人类最自然的输出方式,能够将用户从拼写、格式和预先组织语言的负担中解放出来,提升了输入的自然度和效率[25] 公司产品:Typeless的核心竞争力分析 - Typeless在语音输入工具中定位为“速度中上,文字质量最高”,其核心优势在于大幅降低出错和返工成本,能理解用户意图并生成完整、顺畅的文本[9] - 产品具备超越简单转录的智能功能,包括自动生成带格式的列表、重写邮件、翻译文本,并能根据当前使用的应用程序自动调整输出文本的语气[11][14][16] - 该软件在桌面端集成顺滑,为个人用户提供每周4000词的免费额度,付费套餐为每月12美元提供无限次转录[19] 市场格局与竞争威胁 - 面临操作系统级厂商可能提供系统级、无处不在的高水准语音输入功能的威胁,历史上许多优秀第三方工具因此被削弱[20] - 面临免费本地模型阵营的持续挤压,例如“闪电说”工具,其强化了语音识别应免费的用户预期,对Typeless的付费模式构成长期挑战[21] - 在iOS端因系统限制体验受损,必须跳转应用,后台常驻麦克风的解决方案又带来隐私和功耗问题,这些问题依赖操作系统厂商的配合[21][22] 产品性能与用户数据 - 在20天的使用测试中,用户通过Typeless总计口述输入了约7,883字,节省了约3小时15分钟,平均口述速度达到每分钟157字[20] 未来展望:输入方式的范式转变 - Typeless展现了激进的产品思路,在桌面端试图成为独立于具体应用之上的输入层,在iOS端则直接取消键盘,将语音设为默认动作[26] - 如果操作系统层接受“语音优先”的前提,将可能改写许多现有的交互细节,尽管大公司意愿、用户习惯和监管等问题仍存不确定性[29] - 该产品已在输入效率指标上证明,在许多场景下能以更短时间输入更多信息且更完整语义,减少了与键盘交互的环节,推动了输入方式的重新想象[29]
AI 语音输入法爆火:豆包输入法全面上线,Typeless 日榜第一,Wispr 融资 8100 万美金
Founder Park· 2025-11-27 20:33
行业趋势与市场动态 - 大模型技术驱动下,输入法赛道在2025年下半年重新成为市场焦点,行业关注度显著提升[1] - 语音输入领域近期消息密集,国内外厂商动作频繁:字节豆包输入法结束内测正式上线,微信输入法持续迭代,智谱内测AI输入法;海外Wispr完成2500万美元A轮融资累计融资达8100万美元,Typeless在Product Hunt上线首日登顶[2] - 当前市场产品可划分为三大阵营:桌面端SaaS派(如Wispr、Typeless)、移动端大厂派(如豆包、微信输入法)、小成本极客派(如Whisper Keyboard、闪电说)[4] 产品性能测试与评估 - 在模拟科技公司产品经理焦虑状态下会议发言的极端测试中,桌面端最佳产品为Typeless,移动端最佳为豆包输入法[6] - Typeless延迟时间为3.05秒,具备强力净化功能,能删除废话、修改大小写和标点格式,输出质量最佳[6][8] - 豆包输入法延迟时间为2.05秒,是唯一能根据上下文逻辑准确区分发音相似词汇的产品,中文识别能力突出[6][8] - 微信输入法延迟时间仅1.08秒,响应极快,中文识别准确,但英文全小写是硬伤,适合聊天场景[6][8] - Wispr延迟时间高达10.14秒,严重影响交互心流,中文成语理解和逻辑处理出现偏差[6][8] - 闪电说延迟时间为3.13秒,但在测试中表现欠佳,将专业术语听漏或听错[6][8] - 苹果自带听写表现最差,完全无法处理专业术语[6][14] 桌面端产品战略与特性 - 桌面端创业公司瞄准知识工作者,通过SaaS订阅模式提供高附加值服务,声学环境相对稳定利于专注语义处理[18] - Wispr累计融资8100万美元,拥有270家福布斯500强公司客户,核心亮点为根据应用程序自动调整转写文本语气和风格[19] - Typeless在3.05秒处理时间内完成去口语化、自动纠错和格式排版,提供“精修后”文本降低二次编辑成本[25][27] - 桌面端产品普遍追求无感使用体验,UI最小化,通常只需按下一个键即可直接输入[35] - 国内出现智谱AI输入法等跟随者,界面设计和引导流程复刻Typeless,但稳定性与细节打磨尚有差距[36] 移动端产品战略与特性 - 移动端大厂竞争基于战略层面考量,输入法是连接用户与生态的超级入口,场景复杂度远高于桌面端[38] - 豆包输入法在移动端提供最佳中文语音输入体验,语义理解能力惊艳,但iOS端受限于后台机制需跳转App[39][42] - 微信输入法核心任务为提供最流畅社交体验,深度整合微信生态功能如表情包推荐、跨设备剪贴板同步[47][50] - 移动端产品普遍采取“速度优先”策略,牺牲格式严谨性换取毫秒级响应速度,契合即时通讯需求[55][56] - 移动端输入法UI占用半个屏幕,功能更丰富包括搜索、斗图、字体花样等,用户体验细节密集[46] 技术范式与未来展望 - 大模型技术将语音输入从自动语音识别升级为理解与重构,机器开始“听”逻辑而非仅“听”发音[63] - 技术范式转移使AI能容忍用户口吃、倒装、方言及中英混输,并基于上下文自动修正错误[64] - 交互流程发生根本性价值重构,从“语音转文字”进化为“语音转思考”,输入法正成为回归人类本能的自然交互界面[65]