智谱正式推出「智谱AI输入法」,要真正实现“指尖即模型,语音即指令”
IPO早知道·2025-12-10 13:30

产品发布与开放 - 智谱于12月10日正式发布并开源GLM-ASR系列语音识别模型,并推出基于该系列模型打造的桌面端智谱AI输入法 [2] - 即日起,智谱AI输入法面向所有用户开放 [1][7] 核心产品功能与定位 - 智谱希望让用户真正做到“动动嘴,活就干了”,从“把话变成字”走向“直接用语音完成任务” [2] - 智谱AI输入法基于GLM-ASR系列模型打造,让用户在PC端用语音丝滑交互,实现“指尖即模型,语音即指令” [4] - 用户不仅可以实现精准的语音转文字,还可以在输入法中直接调用大模型能力,完成翻译、改写、情绪转化等操作 [4] 核心技术:GLM-ASR模型性能 - GLM-ASR-2512支持将语音实时转换为文字,在多场景、多语种、多口音的真实复杂环境测试中,字符错误率(CER)仅为0.0717 [2] - 智谱开源了GLM-ASR-Nano-2512,这是一个1.5B参数的端侧模型,取得了当前开源语音识别方向的SOTA表现,并在部分测试中优于若干闭源模型 [3] - 该模型将识别能力压缩到本地运行,在保证高精度的同时,实现更强的隐私保护与更低的交互延迟 [3] - 在多个基准测试中,GLM-ASR-Nano (1.5B) 的平均错误率为4.10,优于OpenAI Whisper V3 (1.5B) 的6.93和FunAudio-ASR (7.7B) 的3.67 [3] 输入法特色功能 - 所选即所改:直接调用底层GLM模型帮助用户翻译、扩写、精简屏幕上的任意一段文字,并完成智能润色,整个过程在输入框内完成,实现“理解-执行-替换”一体化 [4] - 千人千面人设切换:支持设置不同“人设”风格,如“面对老板”可将口语转化为逻辑严谨的工作汇报,“面对伴侣”可使文字变得温柔俏皮 [4] - Vibe Coding(语感编程):针对开发者,结合多语言支持与代码理解能力,可通过语音快速输入代码逻辑和注释、查找Linux指令、用自然语言指挥AI完成复杂计算或脚本编写 [5] - 耳语捕捉与高效热词:优化对微弱声音的捕捉能力,并区分环境噪声,解决公共场合使用痛点;支持用户一键导入专属词汇、项目代号及生僻人名地名 [6]