智谱AI输入法 - 财报，业绩电话会，研报，新闻

智谱AI输入法

搜索文档

36氪· 2026-01-30 21:35

AI语音输入行业兴起 - 2025年下半年起，AI语音输入法成为新风口，豆包输入法、智谱AI输入法等大厂产品相继推出或升级[6] - 搜狗输入法宣布其语音识别率达98%，日均语音使用次数近20亿次[6] - 海外市场同样活跃，Wispr Flow融资额达8100万美元，估值7亿美元，Typeless等产品在Product Hunt排行榜名列前茅[6] AI语音输入的技术优势 - 速度远超打字：普通打字速度约每分钟40-50字，而语音输入可达每分钟150-250字，比打字快约3-7倍[12][14][15] - 准确率更高：研究显示中文语音输入纠错率为6.67%，键盘输入则高达17.73%，当前产品准确率宣称达97%-98%[14][15] - 环境适应性增强：20分贝以下的低语（如树叶沙沙声）仍能保持97%的正确率，办公室等场景适用性提升[16][18] - 大模型赋能：新一代产品是“语音意图输入法”，能识别意图、删除语气词、修改语法、调整语气及翻译润色[15] 产品形态与用户体验变革 - 初创企业产品更激进，取消打字键盘，将语音键置于核心位置[15] - 支持语音修改错误，例如直接说出“把yán改成油盐酱醋的盐”即可修正[15] - 长段落输入准确率高于单字词，得益于大模型对上下文的理解[19] - 用户体验改变：作者用Typeless在53分钟内完成5500字初稿，节省2.5小时，实现“随地大小写”[7][34] 输入法作为潜在超级入口 - 输入法是穿透各App生态的基础入口，AI加持使其功能超越打字，可能实现跨应用调用[24] - 未来可能演变为系统级AI助手，突破输入框限制，成为类似理想中Siri的交互界面[24] - 苹果计划在2026年6月推出新版AI助手，整合至核心应用，支持轻声低语调用功能[26] 语音输入的历史必然性 - 语音是人类交流的初始方式，口语历史约10-20万年，文字仅约5500年，键盘输入历史约150年[28] - 中文打字历史短暂，五笔输入法于1983年发明，拼音输入法随互联网普及才降低门槛[30] - 研究预计到2028年，生成式AI将主要采用语音方式交互[32] - 语音输入属于直觉性的“系统1”思维，打字则属于需要学习的“系统2”思维，前者更自然高效[29]

36氪· 2026-01-29 12:13

AI语音输入行业兴起 - 自2025年下半年起，AI语音输入法成为行业新风口，各大厂商及初创公司纷纷入局[1] - 搜狗输入法宣布其语音识别率达98%，日均语音使用次数近20亿次，稳居行业第一[1] - 海外市场同样活跃，Wispr Flow融资额达8100万美元，估值7亿美元，Typeless等产品在Product Hunt上表现突出[1] AI语音输入的产品优势 - 输入速度远超打字，普通用户语音输入可达每分钟150字以上，专业用户可达每分钟250字，显著快于打字冠军的每分钟175字[6] - 学术研究支持语音输入优势，中英文语音输入速度均为打字的约3倍，且中文语音纠错率(6.67%)远低于键盘输入(17.73%)[7] - 新一代AI语音输入法声称比打字快4至7倍，准确率宣称达97.8%至98%，并具备意图识别、语法修正等高级功能[8] - 产品在低噪音环境(如20分贝)下仍能保持高准确率(97%)，适用场景广泛[10] 技术演进与产品形态 - AI语音输入法从传统转录升级为“语音意图输入法”，能理解上下文、修改错误并调整语气[8] - 初创公司产品形态更为激进，取消传统键盘，以语音为绝对核心[8] - 大语言模型提升了长文本输入的准确率，但单字词输入和同音字问题仍是挑战[11] - 行业预期生成式AI到2028年将主要以语音方式交互[23] 战略定位与市场野心 - AI语音输入法的目标是超越输入工具，成为无需打字(Typeless)时代的系统级入口[13] - 输入法作为跨应用的基础入口，结合AI后有望演变为“超级入口”或系统级AI助手[14] - 苹果公司计划在2026年6月推出具备对话能力的新版AI助手，整合至核心应用，预示语音交互的系统级整合趋势[16] 用户习惯与历史沿革 - 语音是人类交流的初始和自然方式，口语历史达10-20万年，而文字仅约5500年，现代键盘输入历史仅约150年[17] - 中文打字输入发展历程短且存在效率与门槛的矛盾，五笔输入法于1983年发明，拼音输入法后来降低了使用门槛[19][21] - 语音输入被视为对低效打字输入的必然替代，是技术发展下的“拨乱反正”[16][23] 用户影响与未来展望 - 语音输入改变了内容创作模式，实现了“随地大小写”，提升了与AI交互的效率和提示词长度[25] - 行业认为语音输入短期内不会完全取代传统输入法，但替代趋势明确[24] - 未来输入可能无需独立输入法，而是由系统级AI助手无缝完成，类似理想的Siri[14]

北京商报· 2025-12-19 07:24

文章核心观点 - 国内大模型领军企业MiniMax与智谱AI已通过港交所上市聆讯，进入港股上市最后阶段，可能成为内地企业赴港“报备制”以来过聆讯最快的案例 [1] - 两家公司上市路径略有差异，但几乎同步推进，标志着国产大模型行业从技术竞技进入资本竞速新阶段 [1][2][7] - 行业关注点正从技术领先转向商业模式、合规能力与资本耐力，上市先发优势不代表技术绝对领先，且行业盈利模式与商业化挑战依然显著 [4][5][7] 公司上市进展与路径 - **MiniMax上市进程**：于2025年6月秘密递交港交所IPO申请，是首个赴港申请上市的大模型公司，于12月17日通过聆讯，计划于2026年1月挂牌 [1][2] - **智谱AI上市进程**：最初计划A股上市并于2025年4月完成辅导备案，后转向港股，于12月17日通过港交所聆讯 [1][2] - **上市速度**：两家公司可能成为中国内地企业赴港上市“报备制”以来，在港过聆讯最快的案例 [1] - **历史参照**：其上市轨迹与不久前实现美股+港股双重主要上市的小马智行和文远知行重叠 [1] 公司背景与业务对比 - **成立时间与背景**：智谱AI成立于2019年，脱胎于清华大学，2020年专注大模型算法研究，2021年发布百亿参数模型GLM-10B；MiniMax成立于2021年，由前商汤科技高管闫俊杰创立 [2] - **MiniMax业务模式**：押注文本、视觉、音频全模态自研，秉持“模型即产品”理念，推出AI原生应用如MiniMax Agent、海螺AI等，在全球超200个国家及地区拥有超2.12亿用户，覆盖超100个国家和地区的企业客户与开发者，以全球付费订阅和模型调用为主要商业模式 [3] - **智谱AI业务模式**：以AGI基座模型为核心业务，辅以C端业务，例如12月发布并开源GLM-ASR系列语音识别模型，并推出桌面端智谱AI输入法 [3] - **产品与目标群差异**：两者从产品和目标群角度观察有明显差异 [3] 行业竞争格局与挑战 - **“六小虎”格局**：行业常将MiniMax、智谱AI、月之暗面、百川智能、阶跃星辰、零一万物并称为“六小虎” [5][6] - **其他竞争者动态**：月之暗面被曝处于IPO筹备期，其旗下应用Kimi在2025年9月以967万活跃用户规模位列原生AI App月活榜第五，是唯一上榜的“六小虎”应用 [6] - **用户规模与营收关系**：有观点认为当前用户数量并非决定大模型厂商优劣的标准，关键在于能否将用户转化为营收来源 [6] - **零一万物的定位**：零一万物表示现阶段聚焦产业大模型和万智企业Agent等行业应用，致力于打造AI 2.0大模型操作系统 [7] 商业化与盈利前景分析 - **盈利模式挑战**：大模型应用的受众和范围虽在扩大，但盈利模式尚不明朗 [4] - **智谱AI商业化挑战**：其模态全面，但无论是to B或to C应用场景短期都非刚需性替代，实现商业化较慢 [4] - **MiniMax商业化挑战与机会**：主打音视频制作，在小B或C端的配音、朗读、短视频制作等方面可能快速应用，但版权问题是平台短期内需重点解决的问题 [4] - **资本市场的信号**：技术领先只是入场券，未来核心竞争力在于商业模式、合规能力和资本耐力 [7]

大模型

AGI（通用人工智能）

Artificial Intelligence

Artificial Intelligence

北京商报· 2025-12-19 00:00

文章核心观点 - 国内大模型领军企业MiniMax与智谱AI已通过港交所上市聆讯，进入港股上市最后阶段，可能成为内地企业赴港“报备制”以来过聆讯最快的案例 [1] - 两家公司上市路径略有差异，但同日通过聆讯，标志着国产大模型从技术竞技进入资本竞速阶段，行业淘汰赛或将开启 [1][2][7] 公司上市进展与路径 - MiniMax（稀宇科技）与智谱AI均已获得中国证监会境外发行上市备案，并于12月17日先后通过港交所上市聆讯，计划于2026年1月在港挂牌上市 [1] - MiniMax于2025年6月秘密递交港交所IPO申请，是首个赴港申请上市的大模型公司 [2] - 智谱AI原计划在A股上市，于2025年4月完成上市辅导备案，后转向港股 [2] - 两家公司可能成为内地企业赴港上市“报备制”以来，在港过聆讯最快的案例 [1] 公司背景与业务模式 - 智谱AI成立于2019年，脱胎于清华大学，2021年发布百亿参数大模型GLM-10B，以AGI基座模型为核心业务，辅以C端业务 [2][3] - MiniMax成立于2021年，由前商汤科技高管闫俊杰创立，押注文本、视觉、音频全模态自研，基于“模型即产品”理念推出一系列AI原生应用 [2][3] - MiniMax在全球超200个国家及地区拥有超2.12亿用户，覆盖超100个国家和地区的企业客户与开发者，以全球付费订阅和模型调用为主要商业模式 [3] - 智谱AI近期发布并开源GLM-ASR系列语音识别模型，并推出桌面端智谱AI输入法 [3] 行业竞争格局与挑战 - 行业存在“六小虎”说法，MiniMax和智谱上市抢占先机，但不代表其技术位居前两名 [5] - 上市取决于公司意愿、股东意愿及资金需求，与技术领先性关系不大 [6] - 2025年9月活跃用户规模前十的原生AI App中，月之暗面旗下的Kimi以967万月活规模排在第五，是唯一上榜的“六小虎” [6] - 大模型应用受众广泛，但盈利模式尚不明朗，To B或To C应用场景非刚需性替代，商业化较慢 [4] - MiniMax主打音视频制作，在配音、朗读、短视频制作等方面可能快速应用，但面临版权问题挑战 [4] - 技术领先只是入场券，未来竞争依靠商业模式、合规能力和资本耐力 [7] 其他主要竞争者动态 - 百川智能、月之暗面、阶跃星辰对上市计划未作回应 [6] - 零一万物表示现阶段聚焦产业大模型和万智企业Agent等行业应用，致力于打造AI 2.0大模型操作系统 [7]

MiniMax、智谱双双过聆讯，国产大模型叩响资本市场大门

北京商报· 2025-12-18 21:23

上市进程 - 国内大模型领军企业MiniMax（稀宇科技）与智谱AI均已获得中国证监会境外发行上市备案，并于本周先后通过港交所上市聆讯，进入港股上市前的最后阶段 [1] - 知情人士透露，智谱AI于12月17日在港参与并通过了聆讯，MiniMax亦被曝于同日通过了港交所聆讯，计划于2026年1月在港挂牌上市 [3] - 港交所将在近期发布公开信息，面向公众层面的信息确认只是时间问题 [1][3] 公司背景与上市路径 - 智谱AI成立于2019年，脱胎于清华大学，2020年开始专注于大模型算法研究，在2021年发布百亿参数规模大模型GLM-10B [3] - MiniMax成立于2021年，由前商汤科技高管闫俊杰创立 [4] - 2025年6月MiniMax秘密递交港交所IPO申请，是首个赴港申请上市的大模型公司 [3] - 智谱AI本计划在A股上市，于2025年4月在北京证监局完成上市辅导备案，后转向港股 [3] 业务模式与市场表现 - MiniMax押注文本、视觉、音频全模态自研，基于“模型即产品”理念推出一系列AI原生应用，在全球超200个国家及地区拥有超2.12亿用户，覆盖超100个国家和地区的企业客户与开发者，以全球付费订阅和模型调用为主要商业模式 [5] - 智谱AI以AGI（通用人工智能）基座模型为核心业务，辅以C端业务，例如近期发布并开源GLM-ASR系列语音识别模型，并推出桌面端智谱AI输入法 [5] - 2025年9月活跃用户规模前十名的原生AI App中，月之暗面旗下的Kimi以967万的规模排在第五，是唯一上榜的“六小虎” [8] 行业竞争与挑战 - 国产大模型行业存在“六小虎”的说法，除MiniMax和智谱AI外，还包括月之暗面、百川智能、阶跃星辰、零一万物等公司 [6][7][8] - 分析认为，大模型应用的盈利模式尚不明朗，智谱AI的toB或toC应用场景都还不是刚需性替代，实现商业化较慢 [6] - MiniMax主打音视频制作，在小B或C端的配音、朗读、短视频制作等方面可能快速应用，但版权问题或许是平台短期内需要重点解决的问题 [6] - 用户数量并不是决定大模型厂商优劣的标准，重点是用户能否变成营收来源 [8] - 从技术竞技到资本竞速，技术领先只是入场券，未来靠的是商业模式、合规能力和资本耐力 [8]

大模型

Artificial Intelligence

Artificial Intelligence

下一代 AI 交互，会长成什么样子？| 42章经 AI Newsletter

42章经· 2025-12-11 21:31

文章核心观点文章围绕“交互”主题，探讨了AI时代软件开发和产品设计的变革性趋势，核心观点认为，AI的超能力在于“深度个性化”，这将催生全新的软件形态（如Personal Software）、交互范式（如语音操作系统、创新的GUI设计）以及产品设计理念（如系统思维、节奏分层）[4][17][95] (一) 为什么独立的 Vibe Coding 必死，但 Personal Software 会火？ - **软件行业正经历“应用的YouTube化”变迁**：软件开发将从全球约2000万开发者的特权，泛化为80亿创作者的日常媒介，软件将像快消品一样，用于解决特定、即时的需求[6][7] - **独立的Vibe Coding工具存在三大短板**：1) **信任与稳定问题**：缺乏专业开发能力可能导致严重的安全漏洞和用户数据泄露[10]；2) **集成能力不足**：难以方便地调用用户的其他服务（如健康数据、邮箱、银行账户）[11]；3) **缺乏分发与协作机制**：难以形成社交传播和多人协作网络[13] - **平台化是Personal Software成功的关键**：平台能提供信任层以解决安全、隐私和数据持久化问题，提供连接一切的API，并内置社交图谱与协作功能，让个人开发的Mini App得以流转和生长[10][11][13][14] - **AI的超能力是“深度个性化”**：这包含三个层次：1) **应用层个性化**：用户可修改App功能和提示词[18]；2) **平台层个性化**：平台提供用户的基础信息（年龄、地点等）作为上下文给所有App[19]；3) **跨应用个性化**：不同Mini App能相互对话，协同工作（如健身App修改营养方案）[20] - **催生“软件即内容”的新GTM模式**：1) **新商业模式**：内容创作者可通过发布Mini App（如一套训练方案）直接变现[23]；2) **新流量入口**：内容（如旅游攻略）可被封装成功能极简的Mini App（如专属地图）[23]；3) **新社区形态**：Mini App本身成为“社区启动器”，聚集同好，衍生线下活动与共创[24][25][26] - **Wabi类产品的本质是“Prompt容器的平台”**：它将裸奔的文本Prompt配以合适的UI外壳和沙盒环境，使其成为可保存、复制、分发的个人应用，是从“Chatbot”走向“Chat+GUI结合”的交互形态进化[28][33][34] - **软件民主化的实际形态是“人人参与迭代”**：预计从零开始原创的用户不会超过10%，但很多人会参与修改和迭代，平台通过提供“Fork（混音）”和“Request（提需求）”功能来落地[34][35][36] (二) 我们是不是低估了输入法的想象力？ - **输入法正从打字工具进化为“语音操作系统”**：其进化分为三步：1) **接管输入**：从键盘打字转向语音输入，核心价值在于“减负”——消除思考时的认知负荷，并鼓励用户提供更多背景细节，从而提升AI输出质量[39][40][41][42]；2) **代你表达**：基于对用户过往输入的全局了解，能主动帮助写作（如撰写邮件），并学会根据应用场景和用户语气自动调整表达风格[44][45][47]；3) **反客为主**：凭借高系统权限（尤其在PC端可读屏），未来可能主动跳出提供建议或完成任务[48][49] - **AI语音输入法赛道近期融资活跃**：例如海外公司Wispr在4个月内融资了8100万美元[38] - **输入法成为高价值数据管道**：其掌握的实时、高频的一手数据对训练大模型至关重要，包括：1) 训练模型理解人类偏好和意图；2) 让模型跟上人类语言的实时变化（如新梗、新电影）[50][51] - **输入法的战略定位可能提升**：它有望成为用户与所有软件之间最高频的交互接口，以及用户与大模型之间最完整的数据管道[52] (三) 最近见过最好的 5 个 AI 交互设计 - **1. 参数滑块**：用于弥补自然语言在描述“程度”时的无力感，实现“Prompt负责定性，滑块负责定量”，让用户通过拖拽快速调整输出效果（如简洁与详尽的区间），同时提供实时反馈回路，增强用户的控制感和创作归属感[57][58][60][61][64] - **2. 反向Onboarding**：将传统的重流程注册（填信息）反转为先让用户零成本体验核心价值，例如AdComposer.ai仅需输入公司网址即可生成广告创意，旨在将TTV（价值感知时间）压到接近零[65][68][70][71] - **3. 善用等待时间**：将AI生成所需的几十秒等待时间转化为低成本的“二次交互窗口”，例如Gamma让用户选择PPT主题风格，Perplexity询问是否需要补充细节，以此提升结果准确度并优化成本[71][72][73] - **4. 用“命名”控制用户预期**：通过叙事设计降低用户对AI能力的过高期待，例如tldraw将AI助手命名为“小精灵”、“小鬼”等，将其错误行为包装成调皮特性，从而提升用户容忍度和留存率[74][75][76][80][81] - **5. 视角滤镜**：将特定的思维风格或人格特质封装成可打包、共享、调用的“滤镜”或“思维调音台”，用户可像选字体一样选择（如“乔布斯思考滤镜”），未来可能形成交易“脑回路”的新市场，甚至发展出公司级的“品牌滤镜”[83][84][85][86][88][91] (四) 产品设计的终极形态 - **未来产品设计的核心竞争力是“系统思维”而非“品味”**：因为未来的UI将是千人千面的，最终形态更多由用户自身的品味决定[95][96] - **产品设计的工作重心转移**：从设计具体界面转向：1) **定结构**：搭建清晰、耐用的概念体系和可插拔的能力接口[101]；2) **定属性**：明确系统中哪些元素底层共享，哪些可个性化[102]；3) **定逻辑**：设计系统的思考与响应规则（如在用户犹豫时展示更多灵感图片）[103] - **未来的软件像“建筑”一样有机生长**：借鉴《建筑如何学习》的观点，优秀建筑/软件是随用户需求进化而来的有机体，其进化由六个变化速度不同的层级共同构成（从寿命数天的“物品”到数百年的“地基”）[97][100] - **有韧性的系统依靠“节奏分层”维持**：复杂系统（如人类文明）由不同速度的层级（如快速的“时尚”、慢速的“文化”、极慢的“自然”）叠加而成，快层负责试错创新，慢层负责记忆约束，共同维持系统在时间中的韧性与平衡[107][109][114][115] - **设计的本质是建造包容矛盾的结构**：无论是软件、建筑还是制度，都是人类为了在多重时间尺度中生存而做出的结构性尝试，需要容纳不同维度上复杂而矛盾的需求[120][121]

腾讯研究院· 2025-12-11 00:01

OpenAI与谷歌的图像模型竞争 - OpenAI两款名为Chestnut（栗子）和Hazelnut（榛子）的神秘图像模型据称为GPT Image 2，将在本周随GPT-5.2亮相 [1] - 开发者实测显示，OpenAI的图像生成质量尤其在人物面部生成效果上不如谷歌的Nano Banana Pro模型，推测其可能仍基于GPT-4o训练但相较上一代有所提升 [1] - 谷歌的Nano Banana Flash新模型也将在本周登场，同时Gemini 3 Flash即将发布，预示着OpenAI与谷歌在AI领域的正面竞争加剧 [1] Mistral AI发布代码模型与工具 - Mistral AI发布下一代代码模型系列Devstral 2（123B参数）和Devstral Small 2（24B参数），在SWE-bench Verified基准测试上分别达到72.2%和68.0%的准确率，成本效率据称比Claude Sonnet高出7倍 [2] - 公司同步发布了原生CLI工具Mistral Vibe，提供项目感知上下文、智能引用和多文件编排功能，并已作为Zed编辑器的扩展程序提供 [2] - 模型采用修改版MIT许可证，增加了收入限制条款，规定月收入超过2000万美元的公司无权免费使用，需联系Mistral AI购买商业授权 [2] 智谱AI开源语音模型并推出输入法 - 智谱正式发布并开源了GLM-ASR-2512云端模型（字符错误率CER仅0.0717）和GLM-ASR-Nano-2512端侧模型（1.5B参数，达到开源SOTA水平），实现了行业领先的语音识别表现 [3] - 公司推出了智谱AI输入法，支持语音转文字、翻译改写和千人千面人设切换功能，针对开发者提供Vibe Coding体验并与智谱Coding Plan账号打通 [3] - 产品优化了耳语捕捉能力以适应公共场景的微弱声音，支持一键导入专属词汇和项目代号，现已开放下载并免费提供2000积分，相当于28天使用时长 [3] 阿里通义实验室开源图像定制工具 - 阿里通义实验室推出开源工具Qwen-Image-i2L，仅需单张样本图片即可训练LoRA实现个性化风格迁移，模型体积仅几GB，可无缝集成到Stable Diffusion等模型中 [4] - 工具提供了四款模型变体，包括风格模式（2.4B参数）、粗粒度模式（7.9B参数）、精细模式（7.6B参数）和偏见模式（30M参数），分别针对不同应用场景进行优化 [4] - 该项目基于Apache2.0许可证开源，在GenEval和DPG等基准测试中表现领先，特别在中英双语文本渲染方面表现突出，但从单张2D图片提炼3D逻辑仍存在局限 [4] 情感大模型Echo-N1发布 - NatureSelect团队发布了首个情感大模型Echo-N1（32B参数），在多轮情感陪伴任务中的胜率达到46.7%，远超千亿参数商业模型Doubao 1.5的13.3%胜率 [5][6] - 模型创新性地提出了生成式奖励模型和共情的心理物理模型（EPM），将“共情”转化为可计算的物理做功，通过Humanlike Reward和Empathy Reward双重奖励机制进行训练 [6] - 团队构建了拟人化认知沙盒多智能体协作系统，在30个高难度心理场景测试中，基座模型Qwen3-32B的通过率为0%，而Echo-N1的综合评分达到了73.54分 [6] 行业巨头组建智能体标准联盟 - Linux基金会成立了Agentic AI Foundation（AAIF），由OpenAI、Anthropic、谷歌、微软、AWS等巨头共同发起，旨在建立开放中立的智能体互操作性标准 [7] - OpenAI贡献了AGENTS.md标准作为核心基础设施，该标准已被超过6万个开源项目采用，Anthropic则贡献了模型上下文协议（MCP），Block贡献了goose项目 [7] - AGENTS.md本质上是智能体的README文件，为AI编程智能体提供清晰可预测的指令位置，旨在确保不同AI智能体能够安全高效地跨平台协作 [7] AI在药物研发领域取得进展 - 科学家利用AI工具成功设计出具有抗体药物特性的分子，包括由BoltzGen模型设计的纳米抗体和商业公司制造的全长抗体，其效力与商业抗体药物相似 [8] - 加州公司Nabla Bio和Chai Discovery表示已制造出“药物样”抗体，能够识别包括GPCR分子在内的多种疾病靶点，并具备高产量和高特异性等关键特性 [8] - Generate Biomedicine公司已启动使用AI优化抗体治疗重度哮喘的大规模临床试验，但身体是否会将AI设计的抗体识别为外来分子并引发免疫反应仍是未解决的问题 [8] Anthropic的AI治理与风险预警 - Anthropic编写了一份长达1.4万字的“Claude 4.5 Opus Soul Document”作为AI宪法，试图教会AI成为拥有良好价值观的成年人，在“乐于助人”和“不作恶”之间寻求平衡 [9] - 公司的社会影响团队（Societal Impacts Team）仅由9人组成，包括心理学家、黑客和经济学家等，负责监测Claude的真实用途和修补系统漏洞 [9] - Anthropic联合创始人Jared Kaplan警告，人类在2027-2030年将面临是否允许AI自我进化的终极抉择，如果允许，可能导致AI失控并毁灭全人类 [9]

生成式AI

情感大模型

AI智能体标准

Artificial Intelligence

Artificial Intelligence

OpenAI生图模型

谷歌Nano Banana Pro

智谱正式推出「智谱AI输入法」，要真正实现“指尖即模型，语音即指令”

IPO早知道· 2025-12-10 13:30

产品发布与开放 - 智谱于12月10日正式发布并开源GLM-ASR系列语音识别模型，并推出基于该系列模型打造的桌面端智谱AI输入法 [2] - 即日起，智谱AI输入法面向所有用户开放 [1][7] 核心产品功能与定位 - 智谱希望让用户真正做到“动动嘴，活就干了”，从“把话变成字”走向“直接用语音完成任务” [2] - 智谱AI输入法基于GLM-ASR系列模型打造，让用户在PC端用语音丝滑交互，实现“指尖即模型，语音即指令” [4] - 用户不仅可以实现精准的语音转文字，还可以在输入法中直接调用大模型能力，完成翻译、改写、情绪转化等操作 [4] 核心技术：GLM-ASR模型性能 - GLM-ASR-2512支持将语音实时转换为文字，在多场景、多语种、多口音的真实复杂环境测试中，字符错误率（CER）仅为0.0717 [2] - 智谱开源了GLM-ASR-Nano-2512，这是一个1.5B参数的端侧模型，取得了当前开源语音识别方向的SOTA表现，并在部分测试中优于若干闭源模型 [3] - 该模型将识别能力压缩到本地运行，在保证高精度的同时，实现更强的隐私保护与更低的交互延迟 [3] - 在多个基准测试中，GLM-ASR-Nano (1.5B) 的平均错误率为4.10，优于OpenAI Whisper V3 (1.5B) 的6.93和FunAudio-ASR (7.7B) 的3.67 [3] 输入法特色功能 - **所选即所改**：直接调用底层GLM模型帮助用户翻译、扩写、精简屏幕上的任意一段文字，并完成智能润色，整个过程在输入框内完成，实现“理解-执行-替换”一体化 [4] - **千人千面人设切换**：支持设置不同“人设”风格，如“面对老板”可将口语转化为逻辑严谨的工作汇报，“面对伴侣”可使文字变得温柔俏皮 [4] - **Vibe Coding（语感编程）**：针对开发者，结合多语言支持与代码理解能力，可通过语音快速输入代码逻辑和注释、查找Linux指令、用自然语言指挥AI完成复杂计算或脚本编写 [5] - **耳语捕捉与高效热词**：优化对微弱声音的捕捉能力，并区分环境噪声，解决公共场合使用痛点；支持用户一键导入专属词汇、项目代号及生僻人名地名 [6]

北京商报· 2025-12-10 10:13

公司产品发布 - 智谱于12月10日正式发布并开源GLM-ASR系列语音识别模型，并推出桌面端智谱AI输入法 [1] - 发布的具体模型与产品包括云端语音识别模型GLM-ASR-2512、参数量1.5B的开源SOTA端侧语音模型GLM-ASR-Nano-2512，以及桌面端智谱AI输入法 [1] 产品功能与技术特点 - GLM-ASR-2512是新一代语音识别模型，支持将语音实时转换为文字 [1] - 智谱AI输入法基于GLM-ASR系列模型打造，让用户在电脑端用语音交互，实现精准的语音转文字 [1] - 该输入法可在输入法中直接调用大模型能力，完成翻译、改写、情绪转化等操作 [1]

Artificial Intelligence

智谱AI输入法

GLM-ASR-2512

GLM-ASR-Nano-2512

Artificial Intelligence

智谱AI输入法

GLM-ASR-2512

GLM-ASR-Nano-2512