智谱AI输入法
搜索文档
AI语音输入法,人类进入「不打字」时代
36氪· 2026-01-30 21:35
AI语音输入行业兴起 - 2025年下半年起,AI语音输入法成为新风口,豆包输入法、智谱AI输入法等大厂产品相继推出或升级[6] - 搜狗输入法宣布其语音识别率达98%,日均语音使用次数近20亿次[6] - 海外市场同样活跃,Wispr Flow融资额达8100万美元,估值7亿美元,Typeless等产品在Product Hunt排行榜名列前茅[6] AI语音输入的技术优势 - 速度远超打字:普通打字速度约每分钟40-50字,而语音输入可达每分钟150-250字,比打字快约3-7倍[12][14][15] - 准确率更高:研究显示中文语音输入纠错率为6.67%,键盘输入则高达17.73%,当前产品准确率宣称达97%-98%[14][15] - 环境适应性增强:20分贝以下的低语(如树叶沙沙声)仍能保持97%的正确率,办公室等场景适用性提升[16][18] - 大模型赋能:新一代产品是“语音意图输入法”,能识别意图、删除语气词、修改语法、调整语气及翻译润色[15] 产品形态与用户体验变革 - 初创企业产品更激进,取消打字键盘,将语音键置于核心位置[15] - 支持语音修改错误,例如直接说出“把yán改成油盐酱醋的盐”即可修正[15] - 长段落输入准确率高于单字词,得益于大模型对上下文的理解[19] - 用户体验改变:作者用Typeless在53分钟内完成5500字初稿,节省2.5小时,实现“随地大小写”[7][34] 输入法作为潜在超级入口 - 输入法是穿透各App生态的基础入口,AI加持使其功能超越打字,可能实现跨应用调用[24] - 未来可能演变为系统级AI助手,突破输入框限制,成为类似理想中Siri的交互界面[24] - 苹果计划在2026年6月推出新版AI助手,整合至核心应用,支持轻声低语调用功能[26] 语音输入的历史必然性 - 语音是人类交流的初始方式,口语历史约10-20万年,文字仅约5500年,键盘输入历史约150年[28] - 中文打字历史短暂,五笔输入法于1983年发明,拼音输入法随互联网普及才降低门槛[30] - 研究预计到2028年,生成式AI将主要采用语音方式交互[32] - 语音输入属于直觉性的“系统1”思维,打字则属于需要学习的“系统2”思维,前者更自然高效[29]
AI语音输入法,人类进入“不打字”时代
36氪· 2026-01-29 12:13
AI语音输入行业兴起 - 自2025年下半年起,AI语音输入法成为行业新风口,各大厂商及初创公司纷纷入局[1] - 搜狗输入法宣布其语音识别率达98%,日均语音使用次数近20亿次,稳居行业第一[1] - 海外市场同样活跃,Wispr Flow融资额达8100万美元,估值7亿美元,Typeless等产品在Product Hunt上表现突出[1] AI语音输入的产品优势 - 输入速度远超打字,普通用户语音输入可达每分钟150字以上,专业用户可达每分钟250字,显著快于打字冠军的每分钟175字[6] - 学术研究支持语音输入优势,中英文语音输入速度均为打字的约3倍,且中文语音纠错率(6.67%)远低于键盘输入(17.73%)[7] - 新一代AI语音输入法声称比打字快4至7倍,准确率宣称达97.8%至98%,并具备意图识别、语法修正等高级功能[8] - 产品在低噪音环境(如20分贝)下仍能保持高准确率(97%),适用场景广泛[10] 技术演进与产品形态 - AI语音输入法从传统转录升级为“语音意图输入法”,能理解上下文、修改错误并调整语气[8] - 初创公司产品形态更为激进,取消传统键盘,以语音为绝对核心[8] - 大语言模型提升了长文本输入的准确率,但单字词输入和同音字问题仍是挑战[11] - 行业预期生成式AI到2028年将主要以语音方式交互[23] 战略定位与市场野心 - AI语音输入法的目标是超越输入工具,成为无需打字(Typeless)时代的系统级入口[13] - 输入法作为跨应用的基础入口,结合AI后有望演变为“超级入口”或系统级AI助手[14] - 苹果公司计划在2026年6月推出具备对话能力的新版AI助手,整合至核心应用,预示语音交互的系统级整合趋势[16] 用户习惯与历史沿革 - 语音是人类交流的初始和自然方式,口语历史达10-20万年,而文字仅约5500年,现代键盘输入历史仅约150年[17] - 中文打字输入发展历程短且存在效率与门槛的矛盾,五笔输入法于1983年发明,拼音输入法后来降低了使用门槛[19][21] - 语音输入被视为对低效打字输入的必然替代,是技术发展下的“拨乱反正”[16][23] 用户影响与未来展望 - 语音输入改变了内容创作模式,实现了“随地大小写”,提升了与AI交互的效率和提示词长度[25] - 行业认为语音输入短期内不会完全取代传统输入法,但替代趋势明确[24] - 未来输入可能无需独立输入法,而是由系统级AI助手无缝完成,类似理想的Siri[14]
“双雄”抢跑 国产大模型叩响资本市场大门
北京商报· 2025-12-19 07:24
文章核心观点 - 国内大模型领军企业MiniMax与智谱AI已通过港交所上市聆讯,进入港股上市最后阶段,可能成为内地企业赴港“报备制”以来过聆讯最快的案例 [1] - 两家公司上市路径略有差异,但几乎同步推进,标志着国产大模型行业从技术竞技进入资本竞速新阶段 [1][2][7] - 行业关注点正从技术领先转向商业模式、合规能力与资本耐力,上市先发优势不代表技术绝对领先,且行业盈利模式与商业化挑战依然显著 [4][5][7] 公司上市进展与路径 - **MiniMax上市进程**:于2025年6月秘密递交港交所IPO申请,是首个赴港申请上市的大模型公司,于12月17日通过聆讯,计划于2026年1月挂牌 [1][2] - **智谱AI上市进程**:最初计划A股上市并于2025年4月完成辅导备案,后转向港股,于12月17日通过港交所聆讯 [1][2] - **上市速度**:两家公司可能成为中国内地企业赴港上市“报备制”以来,在港过聆讯最快的案例 [1] - **历史参照**:其上市轨迹与不久前实现美股+港股双重主要上市的小马智行和文远知行重叠 [1] 公司背景与业务对比 - **成立时间与背景**:智谱AI成立于2019年,脱胎于清华大学,2020年专注大模型算法研究,2021年发布百亿参数模型GLM-10B;MiniMax成立于2021年,由前商汤科技高管闫俊杰创立 [2] - **MiniMax业务模式**:押注文本、视觉、音频全模态自研,秉持“模型即产品”理念,推出AI原生应用如MiniMax Agent、海螺AI等,在全球超200个国家及地区拥有超2.12亿用户,覆盖超100个国家和地区的企业客户与开发者,以全球付费订阅和模型调用为主要商业模式 [3] - **智谱AI业务模式**:以AGI基座模型为核心业务,辅以C端业务,例如12月发布并开源GLM-ASR系列语音识别模型,并推出桌面端智谱AI输入法 [3] - **产品与目标群差异**:两者从产品和目标群角度观察有明显差异 [3] 行业竞争格局与挑战 - **“六小虎”格局**:行业常将MiniMax、智谱AI、月之暗面、百川智能、阶跃星辰、零一万物并称为“六小虎” [5][6] - **其他竞争者动态**:月之暗面被曝处于IPO筹备期,其旗下应用Kimi在2025年9月以967万活跃用户规模位列原生AI App月活榜第五,是唯一上榜的“六小虎”应用 [6] - **用户规模与营收关系**:有观点认为当前用户数量并非决定大模型厂商优劣的标准,关键在于能否将用户转化为营收来源 [6] - **零一万物的定位**:零一万物表示现阶段聚焦产业大模型和万智企业Agent等行业应用,致力于打造AI 2.0大模型操作系统 [7] 商业化与盈利前景分析 - **盈利模式挑战**:大模型应用的受众和范围虽在扩大,但盈利模式尚不明朗 [4] - **智谱AI商业化挑战**:其模态全面,但无论是to B或to C应用场景短期都非刚需性替代,实现商业化较慢 [4] - **MiniMax商业化挑战与机会**:主打音视频制作,在小B或C端的配音、朗读、短视频制作等方面可能快速应用,但版权问题是平台短期内需重点解决的问题 [4] - **资本市场的信号**:技术领先只是入场券,未来核心竞争力在于商业模式、合规能力和资本耐力 [7]
国产大模型叩响资本市场大门
北京商报· 2025-12-19 00:00
文章核心观点 - 国内大模型领军企业MiniMax与智谱AI已通过港交所上市聆讯,进入港股上市最后阶段,可能成为内地企业赴港“报备制”以来过聆讯最快的案例 [1] - 两家公司上市路径略有差异,但同日通过聆讯,标志着国产大模型从技术竞技进入资本竞速阶段,行业淘汰赛或将开启 [1][2][7] 公司上市进展与路径 - MiniMax(稀宇科技)与智谱AI均已获得中国证监会境外发行上市备案,并于12月17日先后通过港交所上市聆讯,计划于2026年1月在港挂牌上市 [1] - MiniMax于2025年6月秘密递交港交所IPO申请,是首个赴港申请上市的大模型公司 [2] - 智谱AI原计划在A股上市,于2025年4月完成上市辅导备案,后转向港股 [2] - 两家公司可能成为内地企业赴港上市“报备制”以来,在港过聆讯最快的案例 [1] 公司背景与业务模式 - 智谱AI成立于2019年,脱胎于清华大学,2021年发布百亿参数大模型GLM-10B,以AGI基座模型为核心业务,辅以C端业务 [2][3] - MiniMax成立于2021年,由前商汤科技高管闫俊杰创立,押注文本、视觉、音频全模态自研,基于“模型即产品”理念推出一系列AI原生应用 [2][3] - MiniMax在全球超200个国家及地区拥有超2.12亿用户,覆盖超100个国家和地区的企业客户与开发者,以全球付费订阅和模型调用为主要商业模式 [3] - 智谱AI近期发布并开源GLM-ASR系列语音识别模型,并推出桌面端智谱AI输入法 [3] 行业竞争格局与挑战 - 行业存在“六小虎”说法,MiniMax和智谱上市抢占先机,但不代表其技术位居前两名 [5] - 上市取决于公司意愿、股东意愿及资金需求,与技术领先性关系不大 [6] - 2025年9月活跃用户规模前十的原生AI App中,月之暗面旗下的Kimi以967万月活规模排在第五,是唯一上榜的“六小虎” [6] - 大模型应用受众广泛,但盈利模式尚不明朗,To B或To C应用场景非刚需性替代,商业化较慢 [4] - MiniMax主打音视频制作,在配音、朗读、短视频制作等方面可能快速应用,但面临版权问题挑战 [4] - 技术领先只是入场券,未来竞争依靠商业模式、合规能力和资本耐力 [7] 其他主要竞争者动态 - 百川智能、月之暗面、阶跃星辰对上市计划未作回应 [6] - 零一万物表示现阶段聚焦产业大模型和万智企业Agent等行业应用,致力于打造AI 2.0大模型操作系统 [7]
MiniMax、智谱双双过聆讯,国产大模型叩响资本市场大门
北京商报· 2025-12-18 21:23
上市进程 - 国内大模型领军企业MiniMax(稀宇科技)与智谱AI均已获得中国证监会境外发行上市备案,并于本周先后通过港交所上市聆讯,进入港股上市前的最后阶段 [1] - 知情人士透露,智谱AI于12月17日在港参与并通过了聆讯,MiniMax亦被曝于同日通过了港交所聆讯,计划于2026年1月在港挂牌上市 [3] - 港交所将在近期发布公开信息,面向公众层面的信息确认只是时间问题 [1][3] 公司背景与上市路径 - 智谱AI成立于2019年,脱胎于清华大学,2020年开始专注于大模型算法研究,在2021年发布百亿参数规模大模型GLM-10B [3] - MiniMax成立于2021年,由前商汤科技高管闫俊杰创立 [4] - 2025年6月MiniMax秘密递交港交所IPO申请,是首个赴港申请上市的大模型公司 [3] - 智谱AI本计划在A股上市,于2025年4月在北京证监局完成上市辅导备案,后转向港股 [3] 业务模式与市场表现 - MiniMax押注文本、视觉、音频全模态自研,基于“模型即产品”理念推出一系列AI原生应用,在全球超200个国家及地区拥有超2.12亿用户,覆盖超100个国家和地区的企业客户与开发者,以全球付费订阅和模型调用为主要商业模式 [5] - 智谱AI以AGI(通用人工智能)基座模型为核心业务,辅以C端业务,例如近期发布并开源GLM-ASR系列语音识别模型,并推出桌面端智谱AI输入法 [5] - 2025年9月活跃用户规模前十名的原生AI App中,月之暗面旗下的Kimi以967万的规模排在第五,是唯一上榜的“六小虎” [8] 行业竞争与挑战 - 国产大模型行业存在“六小虎”的说法,除MiniMax和智谱AI外,还包括月之暗面、百川智能、阶跃星辰、零一万物等公司 [6][7][8] - 分析认为,大模型应用的盈利模式尚不明朗,智谱AI的toB或toC应用场景都还不是刚需性替代,实现商业化较慢 [6] - MiniMax主打音视频制作,在小B或C端的配音、朗读、短视频制作等方面可能快速应用,但版权问题或许是平台短期内需要重点解决的问题 [6] - 用户数量并不是决定大模型厂商优劣的标准,重点是用户能否变成营收来源 [8] - 从技术竞技到资本竞速,技术领先只是入场券,未来靠的是商业模式、合规能力和资本耐力 [8]
下一代 AI 交互,会长成什么样子?| 42章经 AI Newsletter
42章经· 2025-12-11 21:31
文章核心观点 文章围绕“交互”主题,探讨了AI时代软件开发和产品设计的变革性趋势,核心观点认为,AI的超能力在于“深度个性化”,这将催生全新的软件形态(如Personal Software)、交互范式(如语音操作系统、创新的GUI设计)以及产品设计理念(如系统思维、节奏分层)[4][17][95] (一) 为什么独立的 Vibe Coding 必死,但 Personal Software 会火? - **软件行业正经历“应用的YouTube化”变迁**:软件开发将从全球约2000万开发者的特权,泛化为80亿创作者的日常媒介,软件将像快消品一样,用于解决特定、即时的需求[6][7] - **独立的Vibe Coding工具存在三大短板**:1) **信任与稳定问题**:缺乏专业开发能力可能导致严重的安全漏洞和用户数据泄露[10];2) **集成能力不足**:难以方便地调用用户的其他服务(如健康数据、邮箱、银行账户)[11];3) **缺乏分发与协作机制**:难以形成社交传播和多人协作网络[13] - **平台化是Personal Software成功的关键**:平台能提供信任层以解决安全、隐私和数据持久化问题,提供连接一切的API,并内置社交图谱与协作功能,让个人开发的Mini App得以流转和生长[10][11][13][14] - **AI的超能力是“深度个性化”**:这包含三个层次:1) **应用层个性化**:用户可修改App功能和提示词[18];2) **平台层个性化**:平台提供用户的基础信息(年龄、地点等)作为上下文给所有App[19];3) **跨应用个性化**:不同Mini App能相互对话,协同工作(如健身App修改营养方案)[20] - **催生“软件即内容”的新GTM模式**:1) **新商业模式**:内容创作者可通过发布Mini App(如一套训练方案)直接变现[23];2) **新流量入口**:内容(如旅游攻略)可被封装成功能极简的Mini App(如专属地图)[23];3) **新社区形态**:Mini App本身成为“社区启动器”,聚集同好,衍生线下活动与共创[24][25][26] - **Wabi类产品的本质是“Prompt容器的平台”**:它将裸奔的文本Prompt配以合适的UI外壳和沙盒环境,使其成为可保存、复制、分发的个人应用,是从“Chatbot”走向“Chat+GUI结合”的交互形态进化[28][33][34] - **软件民主化的实际形态是“人人参与迭代”**:预计从零开始原创的用户不会超过10%,但很多人会参与修改和迭代,平台通过提供“Fork(混音)”和“Request(提需求)”功能来落地[34][35][36] (二) 我们是不是低估了输入法的想象力? - **输入法正从打字工具进化为“语音操作系统”**:其进化分为三步:1) **接管输入**:从键盘打字转向语音输入,核心价值在于“减负”——消除思考时的认知负荷,并鼓励用户提供更多背景细节,从而提升AI输出质量[39][40][41][42];2) **代你表达**:基于对用户过往输入的全局了解,能主动帮助写作(如撰写邮件),并学会根据应用场景和用户语气自动调整表达风格[44][45][47];3) **反客为主**:凭借高系统权限(尤其在PC端可读屏),未来可能主动跳出提供建议或完成任务[48][49] - **AI语音输入法赛道近期融资活跃**:例如海外公司Wispr在4个月内融资了8100万美元[38] - **输入法成为高价值数据管道**:其掌握的实时、高频的一手数据对训练大模型至关重要,包括:1) 训练模型理解人类偏好和意图;2) 让模型跟上人类语言的实时变化(如新梗、新电影)[50][51] - **输入法的战略定位可能提升**:它有望成为用户与所有软件之间最高频的交互接口,以及用户与大模型之间最完整的数据管道[52] (三) 最近见过最好的 5 个 AI 交互设计 - **1. 参数滑块**:用于弥补自然语言在描述“程度”时的无力感,实现“Prompt负责定性,滑块负责定量”,让用户通过拖拽快速调整输出效果(如简洁与详尽的区间),同时提供实时反馈回路,增强用户的控制感和创作归属感[57][58][60][61][64] - **2. 反向Onboarding**:将传统的重流程注册(填信息)反转为先让用户零成本体验核心价值,例如AdComposer.ai仅需输入公司网址即可生成广告创意,旨在将TTV(价值感知时间)压到接近零[65][68][70][71] - **3. 善用等待时间**:将AI生成所需的几十秒等待时间转化为低成本的“二次交互窗口”,例如Gamma让用户选择PPT主题风格,Perplexity询问是否需要补充细节,以此提升结果准确度并优化成本[71][72][73] - **4. 用“命名”控制用户预期**:通过叙事设计降低用户对AI能力的过高期待,例如tldraw将AI助手命名为“小精灵”、“小鬼”等,将其错误行为包装成调皮特性,从而提升用户容忍度和留存率[74][75][76][80][81] - **5. 视角滤镜**:将特定的思维风格或人格特质封装成可打包、共享、调用的“滤镜”或“思维调音台”,用户可像选字体一样选择(如“乔布斯思考滤镜”),未来可能形成交易“脑回路”的新市场,甚至发展出公司级的“品牌滤镜”[83][84][85][86][88][91] (四) 产品设计的终极形态 - **未来产品设计的核心竞争力是“系统思维”而非“品味”**:因为未来的UI将是千人千面的,最终形态更多由用户自身的品味决定[95][96] - **产品设计的工作重心转移**:从设计具体界面转向:1) **定结构**:搭建清晰、耐用的概念体系和可插拔的能力接口[101];2) **定属性**:明确系统中哪些元素底层共享,哪些可个性化[102];3) **定逻辑**:设计系统的思考与响应规则(如在用户犹豫时展示更多灵感图片)[103] - **未来的软件像“建筑”一样有机生长**:借鉴《建筑如何学习》的观点,优秀建筑/软件是随用户需求进化而来的有机体,其进化由六个变化速度不同的层级共同构成(从寿命数天的“物品”到数百年的“地基”)[97][100] - **有韧性的系统依靠“节奏分层”维持**:复杂系统(如人类文明)由不同速度的层级(如快速的“时尚”、慢速的“文化”、极慢的“自然”)叠加而成,快层负责试错创新,慢层负责记忆约束,共同维持系统在时间中的韧性与平衡[107][109][114][115] - **设计的本质是建造包容矛盾的结构**:无论是软件、建筑还是制度,都是人类为了在多重时间尺度中生存而做出的结构性尝试,需要容纳不同维度上复杂而矛盾的需求[120][121]
腾讯研究院AI速递 20251211
腾讯研究院· 2025-12-11 00:01
OpenAI与谷歌的图像模型竞争 - OpenAI两款名为Chestnut(栗子)和Hazelnut(榛子)的神秘图像模型据称为GPT Image 2,将在本周随GPT-5.2亮相 [1] - 开发者实测显示,OpenAI的图像生成质量尤其在人物面部生成效果上不如谷歌的Nano Banana Pro模型,推测其可能仍基于GPT-4o训练但相较上一代有所提升 [1] - 谷歌的Nano Banana Flash新模型也将在本周登场,同时Gemini 3 Flash即将发布,预示着OpenAI与谷歌在AI领域的正面竞争加剧 [1] Mistral AI发布代码模型与工具 - Mistral AI发布下一代代码模型系列Devstral 2(123B参数)和Devstral Small 2(24B参数),在SWE-bench Verified基准测试上分别达到72.2%和68.0%的准确率,成本效率据称比Claude Sonnet高出7倍 [2] - 公司同步发布了原生CLI工具Mistral Vibe,提供项目感知上下文、智能引用和多文件编排功能,并已作为Zed编辑器的扩展程序提供 [2] - 模型采用修改版MIT许可证,增加了收入限制条款,规定月收入超过2000万美元的公司无权免费使用,需联系Mistral AI购买商业授权 [2] 智谱AI开源语音模型并推出输入法 - 智谱正式发布并开源了GLM-ASR-2512云端模型(字符错误率CER仅0.0717)和GLM-ASR-Nano-2512端侧模型(1.5B参数,达到开源SOTA水平),实现了行业领先的语音识别表现 [3] - 公司推出了智谱AI输入法,支持语音转文字、翻译改写和千人千面人设切换功能,针对开发者提供Vibe Coding体验并与智谱Coding Plan账号打通 [3] - 产品优化了耳语捕捉能力以适应公共场景的微弱声音,支持一键导入专属词汇和项目代号,现已开放下载并免费提供2000积分,相当于28天使用时长 [3] 阿里通义实验室开源图像定制工具 - 阿里通义实验室推出开源工具Qwen-Image-i2L,仅需单张样本图片即可训练LoRA实现个性化风格迁移,模型体积仅几GB,可无缝集成到Stable Diffusion等模型中 [4] - 工具提供了四款模型变体,包括风格模式(2.4B参数)、粗粒度模式(7.9B参数)、精细模式(7.6B参数)和偏见模式(30M参数),分别针对不同应用场景进行优化 [4] - 该项目基于Apache2.0许可证开源,在GenEval和DPG等基准测试中表现领先,特别在中英双语文本渲染方面表现突出,但从单张2D图片提炼3D逻辑仍存在局限 [4] 情感大模型Echo-N1发布 - NatureSelect团队发布了首个情感大模型Echo-N1(32B参数),在多轮情感陪伴任务中的胜率达到46.7%,远超千亿参数商业模型Doubao 1.5的13.3%胜率 [5][6] - 模型创新性地提出了生成式奖励模型和共情的心理物理模型(EPM),将“共情”转化为可计算的物理做功,通过Humanlike Reward和Empathy Reward双重奖励机制进行训练 [6] - 团队构建了拟人化认知沙盒多智能体协作系统,在30个高难度心理场景测试中,基座模型Qwen3-32B的通过率为0%,而Echo-N1的综合评分达到了73.54分 [6] 行业巨头组建智能体标准联盟 - Linux基金会成立了Agentic AI Foundation(AAIF),由OpenAI、Anthropic、谷歌、微软、AWS等巨头共同发起,旨在建立开放中立的智能体互操作性标准 [7] - OpenAI贡献了AGENTS.md标准作为核心基础设施,该标准已被超过6万个开源项目采用,Anthropic则贡献了模型上下文协议(MCP),Block贡献了goose项目 [7] - AGENTS.md本质上是智能体的README文件,为AI编程智能体提供清晰可预测的指令位置,旨在确保不同AI智能体能够安全高效地跨平台协作 [7] AI在药物研发领域取得进展 - 科学家利用AI工具成功设计出具有抗体药物特性的分子,包括由BoltzGen模型设计的纳米抗体和商业公司制造的全长抗体,其效力与商业抗体药物相似 [8] - 加州公司Nabla Bio和Chai Discovery表示已制造出“药物样”抗体,能够识别包括GPCR分子在内的多种疾病靶点,并具备高产量和高特异性等关键特性 [8] - Generate Biomedicine公司已启动使用AI优化抗体治疗重度哮喘的大规模临床试验,但身体是否会将AI设计的抗体识别为外来分子并引发免疫反应仍是未解决的问题 [8] Anthropic的AI治理与风险预警 - Anthropic编写了一份长达1.4万字的“Claude 4.5 Opus Soul Document”作为AI宪法,试图教会AI成为拥有良好价值观的成年人,在“乐于助人”和“不作恶”之间寻求平衡 [9] - 公司的社会影响团队(Societal Impacts Team)仅由9人组成,包括心理学家、黑客和经济学家等,负责监测Claude的真实用途和修补系统漏洞 [9] - Anthropic联合创始人Jared Kaplan警告,人类在2027-2030年将面临是否允许AI自我进化的终极抉择,如果允许,可能导致AI失控并毁灭全人类 [9]
智谱正式推出「智谱AI输入法」,要真正实现“指尖即模型,语音即指令”
IPO早知道· 2025-12-10 13:30
产品发布与开放 - 智谱于12月10日正式发布并开源GLM-ASR系列语音识别模型,并推出基于该系列模型打造的桌面端智谱AI输入法 [2] - 即日起,智谱AI输入法面向所有用户开放 [1][7] 核心产品功能与定位 - 智谱希望让用户真正做到“动动嘴,活就干了”,从“把话变成字”走向“直接用语音完成任务” [2] - 智谱AI输入法基于GLM-ASR系列模型打造,让用户在PC端用语音丝滑交互,实现“指尖即模型,语音即指令” [4] - 用户不仅可以实现精准的语音转文字,还可以在输入法中直接调用大模型能力,完成翻译、改写、情绪转化等操作 [4] 核心技术:GLM-ASR模型性能 - GLM-ASR-2512支持将语音实时转换为文字,在多场景、多语种、多口音的真实复杂环境测试中,字符错误率(CER)仅为0.0717 [2] - 智谱开源了GLM-ASR-Nano-2512,这是一个1.5B参数的端侧模型,取得了当前开源语音识别方向的SOTA表现,并在部分测试中优于若干闭源模型 [3] - 该模型将识别能力压缩到本地运行,在保证高精度的同时,实现更强的隐私保护与更低的交互延迟 [3] - 在多个基准测试中,GLM-ASR-Nano (1.5B) 的平均错误率为4.10,优于OpenAI Whisper V3 (1.5B) 的6.93和FunAudio-ASR (7.7B) 的3.67 [3] 输入法特色功能 - **所选即所改**:直接调用底层GLM模型帮助用户翻译、扩写、精简屏幕上的任意一段文字,并完成智能润色,整个过程在输入框内完成,实现“理解-执行-替换”一体化 [4] - **千人千面人设切换**:支持设置不同“人设”风格,如“面对老板”可将口语转化为逻辑严谨的工作汇报,“面对伴侣”可使文字变得温柔俏皮 [4] - **Vibe Coding(语感编程)**:针对开发者,结合多语言支持与代码理解能力,可通过语音快速输入代码逻辑和注释、查找Linux指令、用自然语言指挥AI完成复杂计算或脚本编写 [5] - **耳语捕捉与高效热词**:优化对微弱声音的捕捉能力,并区分环境噪声,解决公共场合使用痛点;支持用户一键导入专属词汇、项目代号及生僻人名地名 [6]
智谱推出AI输入法
北京商报· 2025-12-10 10:13
公司产品发布 - 智谱于12月10日正式发布并开源GLM-ASR系列语音识别模型,并推出桌面端智谱AI输入法 [1] - 发布的具体模型与产品包括云端语音识别模型GLM-ASR-2512、参数量1.5B的开源SOTA端侧语音模型GLM-ASR-Nano-2512,以及桌面端智谱AI输入法 [1] 产品功能与技术特点 - GLM-ASR-2512是新一代语音识别模型,支持将语音实时转换为文字 [1] - 智谱AI输入法基于GLM-ASR系列模型打造,让用户在电脑端用语音交互,实现精准的语音转文字 [1] - 该输入法可在输入法中直接调用大模型能力,完成翻译、改写、情绪转化等操作 [1]