Workflow
豆包输入法
icon
搜索文档
AI语音输入法,人类进入「不打字」时代
36氪· 2026-01-30 21:35
AI语音输入行业兴起 - 2025年下半年起,AI语音输入法成为新风口,豆包输入法、智谱AI输入法等大厂产品相继推出或升级[6] - 搜狗输入法宣布其语音识别率达98%,日均语音使用次数近20亿次[6] - 海外市场同样活跃,Wispr Flow融资额达8100万美元,估值7亿美元,Typeless等产品在Product Hunt排行榜名列前茅[6] AI语音输入的技术优势 - 速度远超打字:普通打字速度约每分钟40-50字,而语音输入可达每分钟150-250字,比打字快约3-7倍[12][14][15] - 准确率更高:研究显示中文语音输入纠错率为6.67%,键盘输入则高达17.73%,当前产品准确率宣称达97%-98%[14][15] - 环境适应性增强:20分贝以下的低语(如树叶沙沙声)仍能保持97%的正确率,办公室等场景适用性提升[16][18] - 大模型赋能:新一代产品是“语音意图输入法”,能识别意图、删除语气词、修改语法、调整语气及翻译润色[15] 产品形态与用户体验变革 - 初创企业产品更激进,取消打字键盘,将语音键置于核心位置[15] - 支持语音修改错误,例如直接说出“把yán改成油盐酱醋的盐”即可修正[15] - 长段落输入准确率高于单字词,得益于大模型对上下文的理解[19] - 用户体验改变:作者用Typeless在53分钟内完成5500字初稿,节省2.5小时,实现“随地大小写”[7][34] 输入法作为潜在超级入口 - 输入法是穿透各App生态的基础入口,AI加持使其功能超越打字,可能实现跨应用调用[24] - 未来可能演变为系统级AI助手,突破输入框限制,成为类似理想中Siri的交互界面[24] - 苹果计划在2026年6月推出新版AI助手,整合至核心应用,支持轻声低语调用功能[26] 语音输入的历史必然性 - 语音是人类交流的初始方式,口语历史约10-20万年,文字仅约5500年,键盘输入历史约150年[28] - 中文打字历史短暂,五笔输入法于1983年发明,拼音输入法随互联网普及才降低门槛[30] - 研究预计到2028年,生成式AI将主要采用语音方式交互[32] - 语音输入属于直觉性的“系统1”思维,打字则属于需要学习的“系统2”思维,前者更自然高效[29]
马化腾不看好的「豆包手机」,杀出「围剿」丨36氪独家
36氪· 2026-01-29 21:31
豆包手机初代遭遇与二代规划 - 腾讯公司马化腾在年会上罕见评价豆包手机,反对将用户手机屏幕传到云端,认为其“极其不安全、不负责任”[6] - 豆包手机方面回应称将严格遵守用户授权,云端处理遵循“不存储、不训练原则”[7] - 2025年12月,豆包手机发布仅一天后,其AI Agent因触及各大超级APP的流量和核心数据,遭遇美团、微信、阿里系等互联网厂商的联合封锁,AI功能几近瘫痪[7] - 字节已于2025年底开启豆包手机助手正式版项目,新机预计2026年Q2中晚期发布[9] - 第二代手机依旧与中兴努比亚合作,由中兴负责硬件,豆包负责AI,公司对新机预期比第一代测试版大大提升[9] 豆包手机的突围策略与行业合作 - 如何避免继续被“围剿”是第二代硬件产品的关键课题,团队正与多数主流应用厂商谈判,已与部分互联网公司(打车、外卖、订票等)谈好部分常用权限[10] - 豆包手机并未放弃系统级GUI Agent路线,该路线通过获得操作系统高级权限,让AI看懂屏幕并模拟点击,以实现“自动操作手机”,从而无需应用厂商开放API接口[10] - 行业人士分析,初代采用GUI Agent路线是一种博弈策略,在缺乏谈判筹码时先以此绕开接口授权难题进行打样[10] - 公司采取“两条腿走路”策略:一方面攻坚自有硬件,另一方面与一众手机厂商接洽合作[10] - 对于自研生态完善的大厂(如OPPO、vivo、荣耀),合作集中在技术层面,如模型打通调用或合作“豆包输入法”等模块化产品,但应用层入口仍保留厂商自有语音助手(如小布同学、蓝心小V)[10][11] - 对于市占率较低、被归为“others”的厂商(如传音、魅族、联想),则采用更激进策略,直接在其手机中内置豆包AI入口,类似“赛力斯-华为”模式[11] - 在商业模式上,手机厂商需要向字节支付技术授权费、AI服务订阅费[12] - 行业分析认为,若豆包手机助手以软件形式进入大量手机,不与特定机型强绑定且用户量提升,将更难以被“围剿”[13] 中国手机市场格局与豆包的机遇 - 中国手机市场六大厂商(华为、小米、OPPO、vivo、苹果、荣耀)市占率高度接近,基本在15%上下浮动,大量“others”厂商共同瓜分最后5%的生存空间[14] - 在内存暴涨、大盘下滑的背景下,长尾手机品牌生存处境艰难[15] - 豆包AI的加持为大量“others”手机厂商提供了一种“农村包围城市”的可能性[14] - 部分厂商已公开表达合作意向,如魅族曾公开喊话“期待有机会深入合作”,联想杨元庆称“硬件厂商和模型厂商是一种互补关系”[15] 字节在AI硬件领域的多元布局 - 除了手机,豆包在硬件形态上多重下注,2026年或将看到搭载豆包的眼镜、耳机等硬件[15] - 字节的眼镜团队是国内“规模最大的眼镜团队之一”,在北美设有研发团队,用于安置从Meta挖来的人才[15] - 眼镜工业设计有三个团队参与,最终敲定两个构型方向:一是带显示的AI眼镜,预计2026年Q4发布;二是不带显示的AI眼镜,预计2026年Q1(大概率春节后)发布[16] - 字节的AI眼镜将主打全天候拍照,第一代主要面向豆包资深用户推出[16] - 公司还在开发带摄像头的AI耳机项目[17] - 行业分析认为,当前眼镜和耳机仍是手机的“附庸”,但AI手机将给其他品类带来很大想象空间,未来可通过眼镜或耳机与豆包交互,实现真正解放双手[17] - 豆包的野心并非仅做一台手机,而是让带有豆包模型能力的Agent成为未来所有硬件的标准配置乃至入口[17] - 当用户习惯更便捷的人机交互,由此形成的生态粘性比造出某一款硬件更有价值[18] 行业竞争与海外拓展 - 类似豆包模型下沉到硬件的叙事也在海外发生,竞争对手谷歌正积极将Gemini下放到一众硬件设备上[18] - 谷歌不仅与苹果合作打造新Siri,还尝试将Gemini用于AI眼镜、具身智能机器人[19] - 为布局海外,豆包手机近期也在与vivo等手机厂商协商,推动在其海外机型中搭载“豆包手机助手”,具体细节仍在谈判中[19] 字节的核心优势与战略定位 - 公司在模型、人才、算力、数据等关键要素上已是国内最顶配[20] - 公司唯一缺少的是一个集中输出这些能力的硬件入口,而豆包作为一款DAU破亿的AI应用,积累了大量中国人使用数据并拥有不低的品牌效应,是一个合适的载体[20] - 行业人士判断,在AI时代的硬件终局尚未明确时,激进的字节完全可以同步去探索,不计资源投入[21]
预计Q2中晚期发布!豆包手机卷土重来:从“被围剿”,到“反围剿”
36氪· 2026-01-29 14:55
文章核心观点 - 字节跳动通过其豆包AI助手积极布局硬件生态 旨在将AI能力嵌入各类终端设备 成为未来人机交互的核心入口 其策略包括自研合作手机、拓展其他AI硬件形态以及与手机厂商建立广泛联盟 以突破初代产品遭遇的互联网巨头“围剿”并构建生态壁垒 [1][2][9][11][12] 豆包手机初代产品遭遇与反思 - 腾讯CEO马化腾公开批评豆包手机将用户手机屏幕传至云端的行为“极其不安全、不负责任” 豆包方面回应称遵循“不存储、不训练”原则 [1] - 2025年12月 豆包手机发布仅一天后 其AI Agent因触及各大超级APP的流量和核心数据 遭遇美团、微信、阿里系等互联网厂商的联合封锁 导致AI功能几近瘫痪 [1] - 行业分析认为 初代产品被快速“围剿”的原因在于用户量不大 且与努比亚特定机型强绑定 使得互联网厂商可以针对机型进行小范围定点封禁 [5] 豆包手机二代产品规划与策略调整 - 字节已于2025年底开启豆包手机助手正式版项目 新机预计2026年Q2中晚期发布 供应链称公司对新机预期比第一代测试版大幅提升 [2] - 二代手机依旧与中兴努比亚合作 由中兴负责硬件 豆包负责AI [2] - 为避免再次被“围剿” 豆包手机团队正与主流应用厂商谈判 目前已与部分互联网公司(打车、外卖、订票等)谈好部分常用权限 [3] - 公司并未放弃系统级GUI Agent路线 该路线通过获取操作系统高级权限让AI模拟点击操作 无需应用厂商开放API 初期被用作绕开授权难题的博弈策略 [3] 与手机厂商的合作模式 - 对于自研生态完善的头部手机大厂(如OPPO、vivo、荣耀) 合作集中在技术层面 如模型打通调用或合作“豆包输入法”等模块化产品 这些厂商将保留各自的核心语音入口(如小布同学、蓝心小V) [3][4] - 对于国内市占率较低、被归为“others”的手机厂商(如传音、魅族、联想) 豆包采取更激进策略 计划直接在其手机中内置豆包AI入口 类似于“赛力斯-华为”模式 [4] - 在商业模式上 手机厂商需要向字节支付技术授权费和AI服务订阅费 [5] - 分析认为 若豆包手机助手以软件形式进入大量手机且不与特定机型强绑定 用户量提升后将更难被“围剿” [6] - 中国手机市场六大厂商(华为、小米、OPPO、vivo、苹果、荣耀)市占率各约15% 大量“others”厂商共同瓜分剩余5%的市场 豆包AI为这些长尾品牌提供了“农村包围城市”的可能性 [7][8] 其他AI硬件布局 - 字节在硬件形态上多重下注 2026年或将看到豆包眼镜、耳机等产品 [8] - 字节眼镜团队规模为国内最大之一 在北美设有研发团队 成员来自Meta 工业设计有三个团队参与 最终敲定两个构型:带显示的AI眼镜(计划2026年Q4发布)和不带显示的AI眼镜(计划2026年Q1发布) [8] - AI眼镜将主打全天候拍照 并与豆包等成熟业务协同 主要面向豆包资深用户 [8] - 公司还在开发带摄像头的AI耳机项目 [9] - 行业观点认为 眼镜和耳机当前是手机的“附庸” 但AI手机将给其他品类带来想象空间 实现多设备协同、解放双手的交互体验 [9] - 字节的硬件野心是让带有豆包模型能力的Agent成为未来所有硬件的标准配置乃至入口 由此形成的用户习惯和生态粘性比单一硬件更有价值 [9][10] 行业竞争与海外布局 - 类似叙事在海外同步发生 豆包的竞争对手谷歌正积极将Gemini模型下放到硬件设备 包括与苹果合作打造新Siri 以及应用于AI眼镜和机器人 [10] - 为布局海外 豆包手机近期正与vivo等手机厂商协商 推动在其海外机型中搭载“豆包手机助手” [10] 字节跳动的核心优势与战略动机 - 公司在模型、人才、算力、数据等关键要素上已是国内顶配 唯一缺少的是集中输出能力的硬件入口 [11] - 豆包作为一款日活跃用户数破亿的AI应用 积累了海量中国用户数据和品牌效应 是合适的载体 [11] - 在AI时代硬件终局尚未明确时 字节采取激进的同步探索策略 不计资源投入 [12]
豆包手机卷土重来:从“被围剿”,到“反围剿”丨智能涌现独家
36氪· 2026-01-29 13:10
豆包手机事件回顾与行业反应 - 腾讯公司马化腾在年会上罕见公开评价豆包手机,反对将用户手机屏幕传到云端,认为其“极其不安全、不负责任” [1] - 豆包手机方面迅速回应,承诺严格遵守用户授权,云端处理遵循“不存储、不训练”原则 [1] - 2025年12月,字节旗下豆包手机发布仅一天后,其AI Agent因触及各大超级APP的流量和核心数据,遭遇美团、微信、阿里系等互联网厂商的联合封锁,导致AI功能几近瘫痪 [1] 豆包手机第二代产品规划 - 字节已于2025年底开启豆包手机助手正式版项目,新机预计将于2026年Q2中晚期发布 [2] - 供应链人士称,公司对新机的预期比第一代测试版“大大提升” [2] - 第二代手机依旧与中兴努比亚合作,由中兴负责硬件,豆包负责AI [2] 应对“围剿”的策略与谈判进展 - 豆包手机团队正与多数主流应用厂商谈判,目前已与部分互联网公司(打车、外卖、订票等)谈好了部分常用权限 [3] - 公司并未放弃系统级GUI Agent路线,该路线通过获得操作系统高级权限,让AI看懂屏幕并模拟点击,以绕开应用接口授权难题 [3] - 行业人士分析,初代产品采用此路线是一种博弈策略,旨在为与互联网厂商谈判积累筹码 [3] 与手机厂商的合作模式 - 豆包手机正与一众手机厂商接洽合作,主要分为两类模式 [3] - 对于自研生态完善的手机大厂(如OPPO、vivo、荣耀),合作集中在技术层面,包括模型打通调用或合作“豆包输入法”等模块化产品 [3] - 这类厂商绝不可能让出核心入口,未来应用层将保留各自的语音助手(如小布同学、蓝心小V) [4] - 对于国内市占率较低、被归为“others”的厂商(如传音、魅族、联想),豆包采用更激进的策略,直接在其手机中内置豆包AI入口,类似于“赛力斯-华为”模式 [4] - 在商业模式上,手机厂商需要向字节支付技术授权费和AI服务订阅费 [5] 市场环境与“围剿”分析 - 端侧智能体厂商人士分析,豆包手机第一代被快速“围剿”的原因是用户量不大,且与努比亚特定机型强绑定,互联网厂商可针对机型进行“小范围定点狙击” [6] - 若豆包手机助手以软件形式进入大量手机,不与特定机型捆绑,且用户量提升,“围剿”将变得困难 [6] - 中国手机市场六大厂商(华为、小米、OPPO、vivo、苹果、荣耀)市占率高度接近,基本在15%上下浮动,大量“others”厂商共同瓜分最后5%的市场空间 [7] - 在内存暴涨、大盘下滑的背景下,长尾手机品牌生存处境艰难 [8] - 部分“others”厂商已公开表达合作意向,如魅族喊话“期待有机会深入合作”,联想杨元庆称硬件厂商和模型厂商是“互补关系” [8] 豆包在硬件领域的多形态布局 - 除了手机,豆包还在硬件形态上多重下注,2026年或将看到豆包眼镜、耳机等产品 [8] - 字节的眼镜团队是国内“规模最大的眼镜团队之一”,在北美设有研发团队,用于安置从Meta挖来的人才 [8] - 工业设计环节有三个团队参与,最终敲定两个构型方向:带显示的AI眼镜(预计2026年Q4发布)和不带显示的AI眼镜(预计2026年Q1发布) [8] - 新硬件的主要卖点是与豆包等字节成熟业务的协同,例如AI眼镜将主打全天候拍照,并主要面向豆包资深用户推出 [8] - 公司还在开发带摄像头的AI耳机项目 [9] - 行业人士分析,当前眼镜和耳机仍是手机的“附庸”,但AI手机将为其他品类带来想象空间,例如通过眼镜或耳机语音交互,解放双手 [9] 战略野心与行业竞争 - 豆包的野心并非单纯做手机,而是让带有豆包模型能力的Agent成为未来所有硬件的标准配置乃至入口 [9] - 当用户习惯更便捷的人机交互,由此形成的生态粘性比造出某一款硬件更有价值 [10] - 类似叙事也在海外发生,竞争对手谷歌正积极将Gemini模型下放到硬件设备,包括与苹果合作打造新Siri,以及应用于AI眼镜、具身智能机器人 [10] - 为布局海外,豆包手机近期也在与vivo等厂商协商,推动在其海外机型中搭载“豆包手机助手”,具体细节仍在谈判中 [10] 字节的核心优势与战略考量 - 公司在模型、人才、算力、数据等关键要素上已是国内“最顶配” [11] - 公司唯一缺少的是一个集中输出这些能力的硬件入口,而DAU破亿的豆包应用积累了大量中国用户数据和品牌效应,是一个合适的载体 [12] - 行业人士判断,在AI时代硬件终局尚未明确时,激进的字节完全可以同步探索多种可能性,并不计资源投入 [12]
AI语音输入法,人类进入“不打字”时代
36氪· 2026-01-29 12:13
AI语音输入行业兴起 - 自2025年下半年起,AI语音输入法成为行业新风口,各大厂商及初创公司纷纷入局[1] - 搜狗输入法宣布其语音识别率达98%,日均语音使用次数近20亿次,稳居行业第一[1] - 海外市场同样活跃,Wispr Flow融资额达8100万美元,估值7亿美元,Typeless等产品在Product Hunt上表现突出[1] AI语音输入的产品优势 - 输入速度远超打字,普通用户语音输入可达每分钟150字以上,专业用户可达每分钟250字,显著快于打字冠军的每分钟175字[6] - 学术研究支持语音输入优势,中英文语音输入速度均为打字的约3倍,且中文语音纠错率(6.67%)远低于键盘输入(17.73%)[7] - 新一代AI语音输入法声称比打字快4至7倍,准确率宣称达97.8%至98%,并具备意图识别、语法修正等高级功能[8] - 产品在低噪音环境(如20分贝)下仍能保持高准确率(97%),适用场景广泛[10] 技术演进与产品形态 - AI语音输入法从传统转录升级为“语音意图输入法”,能理解上下文、修改错误并调整语气[8] - 初创公司产品形态更为激进,取消传统键盘,以语音为绝对核心[8] - 大语言模型提升了长文本输入的准确率,但单字词输入和同音字问题仍是挑战[11] - 行业预期生成式AI到2028年将主要以语音方式交互[23] 战略定位与市场野心 - AI语音输入法的目标是超越输入工具,成为无需打字(Typeless)时代的系统级入口[13] - 输入法作为跨应用的基础入口,结合AI后有望演变为“超级入口”或系统级AI助手[14] - 苹果公司计划在2026年6月推出具备对话能力的新版AI助手,整合至核心应用,预示语音交互的系统级整合趋势[16] 用户习惯与历史沿革 - 语音是人类交流的初始和自然方式,口语历史达10-20万年,而文字仅约5500年,现代键盘输入历史仅约150年[17] - 中文打字输入发展历程短且存在效率与门槛的矛盾,五笔输入法于1983年发明,拼音输入法后来降低了使用门槛[19][21] - 语音输入被视为对低效打字输入的必然替代,是技术发展下的“拨乱反正”[16][23] 用户影响与未来展望 - 语音输入改变了内容创作模式,实现了“随地大小写”,提升了与AI交互的效率和提示词长度[25] - 行业认为语音输入短期内不会完全取代传统输入法,但替代趋势明确[24] - 未来输入可能无需独立输入法,而是由系统级AI助手无缝完成,类似理想的Siri[14]
输入法“变笨”了吗?
经济观察报· 2026-01-11 15:29
文章核心观点 - 主流输入法厂商正全力投入AI功能“军备竞赛”,试图将输入法打造为AI大模型的超级入口,但在此过程中却忽视了基础输入体验的优化,导致词联想不准、语音识别出错、广告过多等问题,引发了用户的普遍不满和耐心消耗 [1][2] - 输入法行业面临“效率悖论”:产品在追求智能化(如写诗、预测)的同时,其“本分”——准确、高效地打字和表达——却出现退步,基础功能体验与AI能力发展失衡 [2][4] - 行业竞争格局高度集中,头部厂商合计占据超过84%的市场份额,在存量竞争下,争夺作为AI关键数据入口的输入法,成为各大厂AI模型应用能力角力的焦点 [8][9] - 作为免费工具,输入法长期面临“高流量、低价值”的商业化焦虑,同时用户隐私保护是必须严守的红线,这两大因素共同制约了产品的性能提升与用户体验优化 [14][15][16] 用户反馈与产品问题 - 用户普遍反映输入法“变笨”,具体问题包括:常用字词联想失准(如输入“是”频繁推荐“事”)、语音识别转文字错误增多需反复修改、广告弹窗频繁影响体验 [2][4] - 具体案例显示,搜狗输入法存在将语气助词“呀”误判为“压”或“亚”,且未记住用户纠正习惯的问题 [4] - 厂商积极收集用户反馈,例如搜狗输入法团队平均每周回复用户内容1000余条,每周收到数千条需求,并快速响应优化,如用户提出“在大写数字后加‘圆整’”的功能在4个工作日后上线 [5] - 针对广告问题,搜狗输入法正考虑在2026年一季度上线能去除广告的新版本;百度输入法则表示会根据用户偏好提供个性化功能界面,并保证输入主流程体验 [5] 行业竞争格局与AI军备竞赛 - 中国第三方输入法市场呈“寡占格局”,截至2025年7月,搜狗、讯飞、百度、微信等头部厂商的合计市场占有率高达84.4% [8] - 各大厂商将输入法定位为AI大模型的“第一入口”或“超级入口”,竞争核心是将大模型的理解与生成能力更好地融入打字场景,以占据上下文数据信息的入口 [9] - 腾讯正用AI将搜狗输入法“重做一遍”,推动全面AI化,并将混元大模型与微信输入法深度协同 [2][9] - 百度依托文心一言大模型,希望将输入法发展为AI驱动的表达与协作工具 [10] - 科大讯飞强化“离线语音识别”优势,并通过AI键盘解决个性化需求 [11] - 字节跳动于2025年下半年加入战场,旗下豆包输入法在9月内测,主打语音输入与端侧智能,一个多月后上线安卓商店 [11] - 阿里云千问APP也在研发输入法,试图抓住上下文输入这一关键入口 [11] 技术挑战与未来方向 - 当前AI算法在理解人类意图上仍有局限,词联想不准部分源于训练数据中存在大量噪声(如错别字、语法错误),影响了算法效果 [11] - 输入法之父马占凯描绘的未来方向是输入法成为真正的智能体(Agent),能理解复杂指令并执行任务(如识别“约张总”并自动拨打电话),而不仅是文字转换工具 [12] - AI多模态交互(语音、文字、图片)对输入法提出了更高要求,需要高度复杂的算法支持不同模态信息间的转换与协同处理 [17] - 数据质量与隐私保护是制约性能提升的重要因素,为保护隐私进行的数据匿名化、脱敏处理增加了数据处理的复杂性与难度 [16] 商业化与隐私困境 - 输入法作为工具型产品,长期面临“高流量、低价值”的变现难题,商业化模式主要包括广告、会员付费及定制服务等 [15] - 搜狗输入法虽拥有皮肤、广告弹窗、专有词库定制等变现手段,但其具体营收贡献未在腾讯财报中单独披露 [15] - 用户隐私是行业红线,2021年多家输入法曾因违规收集个人信息被要求整改甚至下架,此后厂商加强了隐私保护措施 [16] - 目前厂商提供不同模式以平衡功能与隐私,如搜狗输入法的“完全体验模式”(数据上传云端)和“基础打字模式”(不收集数据);讯飞输入法则在基础输入模式下实现核心功能完全离线化 [16]
输入法“变笨”了吗?
经济观察网· 2026-01-11 11:41
核心观点 - 行业正经历从基础打字工具向AI超级入口的战略转型,但过度追求AI功能叠加导致产品臃肿,忽视了基础输入准确性和用户体验,引发了“效率悖论” [2][3][9] - 用户对主流输入法(如搜狗、百度)的核心抱怨集中在:基础字词联想准确率下降、语音识别功能退步、以及广告弹窗过多影响体验 [3][4][5][6] - 输入法厂商面临“高流量、低价值”的商业化困境与用户隐私保护的双重挑战,同时正围绕AI大模型能力展开激烈竞争,争夺未来智能交互的核心入口 [9][11][16][18] 行业竞争格局与战略方向 - 中国第三方输入法市场呈寡占格局,截至2025年7月,搜狗、讯飞、百度、微信等头部厂商合计市占率高达84.4% [9] - 行业共识是将输入法定位为AI大模型的“第一入口”或“超级入口”,旨在通过用户高频交互数据训练更智能的AI [9][10][11] - 各大厂商基于自有大模型展开竞争:腾讯将混元大模型与微信输入法深度协同;百度依托文心一言打造表达与协作工具;科大讯飞强化离线语音识别;字节跳动于2025年9月内测豆包输入法;阿里云千问APP也在研发输入法 [11][12][13] 用户反馈与产品问题 - 用户普遍反映输入法“变笨”:基础打字联想失准(如输入“nanyong”首推“男用”而非“难用”),常用字(如“是”)不在候选词首页,语音识别转文字错误率高需反复修改 [3][4][6] - 广告弹窗问题严重,影响用户体验,搜狗输入法正考虑在2026年第一季度上线能去除广告的新版本 [5][7] - 厂商积极收集用户反馈,搜狗输入法团队平均每周回复用户内容1000余条,并快速响应优化(如4个工作日内上线“大写数字后加‘圆整’”功能) [6][8] 技术挑战与AI局限 - 当前AI算法在理解人类意图上仍有局限,训练数据中的噪声(错别字、语法错误)会影响模型效果,导致联想不准 [13] - 多模态交互(语音、文字、图片)对算法和技术支持提出更高要求 [19] - 保护用户隐私(如数据匿名化、脱敏处理)增加了数据处理的复杂性,与需要分析用户数据以提升智能的功能存在矛盾 [18][19] 商业化与隐私困境 - 输入法产品长期面临“高流量、低价值”的变现难题,商业化模式主要包括广告、会员付费及皮肤等增值服务 [16][17] - 用户隐私是敏感红线,2021年多家输入法曾因违规收集个人信息被要求整改甚至下架 [18] - 为平衡隐私与功能,厂商提供不同模式:搜狗输入法提供“完全体验模式”(数据上传云端)和“基础打字模式”(不收集数据);讯飞输入法则实现基础核心功能的完全离线化 [18][19]
亲身体验后,我们总结了全网首份AI语音输入法红黑榜|锦秋AI实验室
锦秋集· 2026-01-08 22:57
文章核心观点 - 语音输入法的核心价值在于能否将口语准确、忠实地转换为可供信息接收者理解的书面文本,而不仅仅是省事 [1] - 当前AI语音输入法在基础听写准确率上普遍达标,但在会议纪要、中英混输、数字单位、专有名词等复杂场景下表现分化显著,分水岭在于能否“忠实转写”而非“自作聪明”地改写 [36] - 经过5轮7款产品的测评,typeless在综合表现上断层领先,豆包输入法为全能省心型选择,而部分产品在关键场景存在语义级错误的高风险 [37][38] 横评工具与测评方法 - 测评涵盖7款产品:搜狗输入法、智谱输入法、Whisper flow、闪电说、讯飞输入法、豆包输入法、typeless [6] - 测评采用5个真实场景的统一题库,包括日常聊天、会议纪要、中英混输、数字与单位、专有名词 [2] - 测评维度包括文本一致性、局部质量和整体体验,评分标尺为0-5分 [7][11] - 所有工具均采用最新版默认配置,不调参数,不手动修正结果 [11] 各场景测评结果 日常聊天转写(基础准确率) - 第一梯队(几乎可直接发)包括搜狗、讯飞、豆包、typeless、智谱,关键信息转写稳定 [10] - 搜狗、讯飞、豆包更忠实保留“哈/那个/哦对了”等口语词,聊天味浓 [12] - 智谱会轻微“去口语化”,使文本读起来更干净 [13] - typeless在忠实转写基础上会主动进行自动分段和补全标点,提升可读性 [14] 会议纪要(长句与结构化) - 此场景考验长句、多层结构、专有名词和分工列表的准确转写与结构化能力 [16] - 第一梯队为typeless和豆包输入法 [17] - typeless能在忠实转写的基础上,自动将内容整理成编号清晰的会议纪要模板 [19] - 豆包输入法则近乎逐字忠实转写,标点断句自然 [19] - 搜狗、讯飞、闪电说出现明显翻车,如将“不再加了”误转为“不在家了”,导致语义事故 [18][25] 中英混输(技术口述) - 此场景对英文术语、数字状态码、URL、邮箱等硬字段的准确率要求极高,一处错误即可导致指令失效 [21] - 第一梯队为豆包输入法和typeless,核心术语与指令逻辑保持准确 [26] - typeless还能将信息自动结构化成清单,便于技术沟通 [26] - 搜狗输入法出现致命误转,如将“login callback”转写为“logan comeback”,导致整段内容不可用 [26] - 智谱输入法在关键指令顺序上翻车,如将“fix”和“test”的先后顺序转反 [26] 数字、单位与时间 - 此场景对数字、金额、时间、比例等数据的准确性要求极为严格,错误可能导致执行事故 [28] - 第一梯队包括豆包、搜狗、智谱、typeless,关键数字和单位几乎全对 [31] - 搜狗和豆包将“35到45分钟”转写为“35~45”,更符合书面表达 [31] - typeless自动将预算、流程等拆分成清单,适合直接作为通知发布 [31] - 闪电说出现预算级事故,如将“4200”误转为“3200” [31] 专有名词(人名、机构名、品牌名) - 此场景是语音输入法的“照妖镜”,专有名词错误会严重影响文本可信度且难以自动纠正 [33] - typeless表现最佳,RL、Agent、Meta、斯坦福、Pokee AI、朱哲清等专有名词几乎全部准确,标点段落舒适,可直接作为引用稿 [37] - 智谱输入法整体准确,主要瑕疵为公司名拼写(如Pokee→poke) [37] - 豆包输入法出现人名同音错字(朱哲清→朱泽清)和品牌名漂移(Pokee→Poky) [37] - 搜狗、闪电说、Whisper flow、讯飞错误较多,如将RL听成url、概念听成数字(“期望回报”→“7万回报”),导致专业感丧失 [37] 产品总结与定位 - **typeless**:被定位为“纪要型天花板”,结构化、排版和长句稳定性强,会议纪要、通知等场景几乎可直接使用,但对链接、邮箱等硬字段偶尔会进行智能补全,需核对 [40] - **豆包输入法**:被视作“全能型助手”,整体最忠实于原话,会议纪要、数字、技术口述等场景稳定,断句自然,是省心的全场景选择 [38][40] - **智谱输入法**:在聊天场景会轻微优化口语,使文本更干净,多数轮次稳定,但技术口述中可能出现指令顺序错误,适合表达整理而非严格记录 [40] - **讯飞输入法**:基础听写可靠,但格式感一般,在会议纪要和中英混输场景下编号、大小写、字段格式容易混乱,适合随手记 [40] - **Whisper flow**:排版和结构化能力突出,但专有名词和技术词汇错误密集,甚至出现语义级误听,属于格式满分但内容需严格校对的类型 [40] - **搜狗输入法**:日常聊天和数字场景表现优秀,口语保留自然,但专业场景易出现语义事故级错误,适合聊天而非记录 [40] - **闪电说**:多轮出现关键否定句翻转、预算数字错误、技术字段乱码,不推荐用于任何高风险场景 [40]
20年过去了,大厂们又开始卷输入法了
创业邦· 2026-01-07 11:22
文章核心观点 - 互联网巨头(如字节、腾讯、百度)近期重新加码布局输入法赛道,并非单纯为了提升打字体验,而是因为输入法是互联网及AI时代一个具有战略价值的底层流量入口,能够实现数据获取、流量引导、广告变现和生态卡位,投入产出比极高[9][11][25][26] 输入法作为流量入口的战略价值 - 输入法是用户与所有App交互的必经通道,是互联网最底层的流量入口,能先于应用本身获取用户需求[11] - 在PC互联网时代,搜狗输入法就通过“搜索候选”功能,在用户输入时直接提供搜索结果,成功为搜狗搜索导流,证明了其作为流量入口的价值[12][13] - 在AI时代,输入法的价值被进一步放大,因为它能整合AI能力(如实时翻译、问答),在所有应用之上提供服务,具备“截胡”用户需求的能力[15] 巨头在AI输入法领域的近期布局 - 字节跳动近期正式上线了豆包输入法,目前功能简洁,但其语音识别能力突出,又快又准,预计未来将接入豆包AI[5][6][20] - 百度输入法推出了“超会写”功能,可在键盘上直接进行AI对话和提问[17] - 搜狗输入法也加入了AI搜索,并能调用不同领域的智能体回答问题[17] - 微信输入法在大模型热潮后,也增加了“问AI”功能,允许用户在输入界面直接获取AI回答,无需切换应用[19] AI输入法潜在的商业模式与变现方向 - **广告变现**:借鉴搜索引擎的竞价排名模式,未来AI在回答用户问题时,可能将广告内容以更原生、更隐蔽的方式融入答案中,例如为特定产品做倾向性推荐 Google和Perplexity等AI产品已在测试在AI回答中插入广告[20][22] - **生态导流**:输入法的AI功能可作为“钩子”,将用户引导至自家的核心应用生态,例如在微信输入法中点击继续提问会跳转到微信输入法App[23] - **数据训练**:通过用户协议中的“体验改进计划”,在数据去标识化后,收集用户的输入习惯、提问方式等数据,用于优化产品和训练AI模型[24][25] 历史对比与行业趋势 - 当前巨头争相在输入法等基础工具中整合AI,与二十年前互联网发展初期,巨头争夺输入法、浏览器、搜索引擎等流量入口的历史逻辑相似[28] - 在AI时代,所有基础需求都值得重做一遍,因此巨头们再次涌入这些基础服务领域进行竞争[28] - 类似的入口争夺也体现在PC端,各大模型助手普遍提供划词搜索功能,旨在抢占离用户最近的位置[26]
AI 语音输入法,正在偷偷挤走「键盘」
36氪· 2025-12-22 17:03
行业趋势:AI驱动的语音输入技术演进 - 语音输入正从传统的替代性输入方式,转变为与AI模型直接交互的前置层,其价值在于与后续AI反馈的无缝衔接[3] - 技术路线从传统的自动语音识别转向大语言模型,核心任务从“识别声音”转变为“理解意图”,使得机器更能适应人的自然表达习惯[18] - 语音作为人类最自然的输出方式,能够将用户从拼写、格式和预先组织语言的负担中解放出来,提升了输入的自然度和效率[25] 公司产品:Typeless的核心竞争力分析 - Typeless在语音输入工具中定位为“速度中上,文字质量最高”,其核心优势在于大幅降低出错和返工成本,能理解用户意图并生成完整、顺畅的文本[9] - 产品具备超越简单转录的智能功能,包括自动生成带格式的列表、重写邮件、翻译文本,并能根据当前使用的应用程序自动调整输出文本的语气[11][14][16] - 该软件在桌面端集成顺滑,为个人用户提供每周4000词的免费额度,付费套餐为每月12美元提供无限次转录[19] 市场格局与竞争威胁 - 面临操作系统级厂商可能提供系统级、无处不在的高水准语音输入功能的威胁,历史上许多优秀第三方工具因此被削弱[20] - 面临免费本地模型阵营的持续挤压,例如“闪电说”工具,其强化了语音识别应免费的用户预期,对Typeless的付费模式构成长期挑战[21] - 在iOS端因系统限制体验受损,必须跳转应用,后台常驻麦克风的解决方案又带来隐私和功耗问题,这些问题依赖操作系统厂商的配合[21][22] 产品性能与用户数据 - 在20天的使用测试中,用户通过Typeless总计口述输入了约7,883字,节省了约3小时15分钟,平均口述速度达到每分钟157字[20] 未来展望:输入方式的范式转变 - Typeless展现了激进的产品思路,在桌面端试图成为独立于具体应用之上的输入层,在iOS端则直接取消键盘,将语音设为默认动作[26] - 如果操作系统层接受“语音优先”的前提,将可能改写许多现有的交互细节,尽管大公司意愿、用户习惯和监管等问题仍存不确定性[29] - 该产品已在输入效率指标上证明,在许多场景下能以更短时间输入更多信息且更完整语义,减少了与键盘交互的环节,推动了输入方式的重新想象[29]