Workflow
语音识别
icon
搜索文档
企业通信的下一站:融合与智能
搜狐财经· 2025-12-16 14:20
行业趋势:企业通信系统的智能化转型 - 企业通信的进化正进入第三阶段,其核心目标从确保连通性和易用性,转变为挖掘通信数据本身的价值,使其成为企业洞察市场、理解客户和驱动增长的智能引擎[17][19] - 新一代通信平台与传统系统的根本区别在于,其目标从被动记录通话内容,转变为主动理解客户意图[5] - 这一转型由语音识别、自然语言处理和机器学习等技术的深度融合所驱动[5] 技术应用:智能通信平台的核心能力 - 智能通信平台能够对语音留言进行结构化分析,提取关键词、识别情绪倾向并评估问题紧急程度,为销售或服务人员提供包含客户核心关切、情绪状态及建议响应策略的报告[5] - 系统能够识别常见问题模式,区分咨询与投诉,并能从客户的语速变化中察觉其满意度变化[5] - 语音分析技术能够识别语调起伏、语速变化和停顿等非语言信息,从而更准确地判断客户真实情绪,例如将“听起来还行”的留言分类为“勉强接受”、“其实不满”或“真诚认可”[14] - 系统可通过分析通信数据,识别出客户反复咨询却未下单的问题,或频繁提及却库存不足的产品,从而捕捉“未曾说出口”的需求[15] 数据价值:客户声音的深度挖掘与融合 - 散落在客服电话、销售通话和会议记录中的客户声音是企业常被忽略的珍贵资产[9] - 当软电话系统与CRM、ERP及数据分析平台深度融合后,客户画像从平面的基础信息变为立体的鲜活个体,例如包含历史投诉记录、产品兴趣及沟通风格等[9] - 通过分析大量通信数据,企业能做出更科学的决策,例如分析上百通产品咨询电话后发现60%的客户都询问同一功能细节,该发现应成为产品发布重点[10] - 通信数据与业务系统的融合让数据在企业运营各环节流动,成为决策的“氧气”,而非简单的数据对接[10] 业务影响:从客户服务到运营决策的变革 - 智能分析使得规模化个性化服务成为可能,系统可自动分析成百上千的通话记录,识别不同客户群体的沟通偏好,并将洞察实时推送给一线人员,提升沟通效果[16] - 服务响应从被动变为预见性,例如系统识别出重要客户留言中的不满情绪后,可自动提升处理优先级,并同步该客户近期所有互动记录给服务专员[10] - 企业通信数据正从一项“运维开销”转变为企业最敏锐的“市场触角”[19]
智谱正式推出「智谱AI输入法」,要真正实现“指尖即模型,语音即指令”
IPO早知道· 2025-12-10 13:30
产品发布与开放 - 智谱于12月10日正式发布并开源GLM-ASR系列语音识别模型,并推出基于该系列模型打造的桌面端智谱AI输入法 [2] - 即日起,智谱AI输入法面向所有用户开放 [1][7] 核心产品功能与定位 - 智谱希望让用户真正做到“动动嘴,活就干了”,从“把话变成字”走向“直接用语音完成任务” [2] - 智谱AI输入法基于GLM-ASR系列模型打造,让用户在PC端用语音丝滑交互,实现“指尖即模型,语音即指令” [4] - 用户不仅可以实现精准的语音转文字,还可以在输入法中直接调用大模型能力,完成翻译、改写、情绪转化等操作 [4] 核心技术:GLM-ASR模型性能 - GLM-ASR-2512支持将语音实时转换为文字,在多场景、多语种、多口音的真实复杂环境测试中,字符错误率(CER)仅为0.0717 [2] - 智谱开源了GLM-ASR-Nano-2512,这是一个1.5B参数的端侧模型,取得了当前开源语音识别方向的SOTA表现,并在部分测试中优于若干闭源模型 [3] - 该模型将识别能力压缩到本地运行,在保证高精度的同时,实现更强的隐私保护与更低的交互延迟 [3] - 在多个基准测试中,GLM-ASR-Nano (1.5B) 的平均错误率为4.10,优于OpenAI Whisper V3 (1.5B) 的6.93和FunAudio-ASR (7.7B) 的3.67 [3] 输入法特色功能 - **所选即所改**:直接调用底层GLM模型帮助用户翻译、扩写、精简屏幕上的任意一段文字,并完成智能润色,整个过程在输入框内完成,实现“理解-执行-替换”一体化 [4] - **千人千面人设切换**:支持设置不同“人设”风格,如“面对老板”可将口语转化为逻辑严谨的工作汇报,“面对伴侣”可使文字变得温柔俏皮 [4] - **Vibe Coding(语感编程)**:针对开发者,结合多语言支持与代码理解能力,可通过语音快速输入代码逻辑和注释、查找Linux指令、用自然语言指挥AI完成复杂计算或脚本编写 [5] - **耳语捕捉与高效热词**:优化对微弱声音的捕捉能力,并区分环境噪声,解决公共场合使用痛点;支持用户一键导入专属词汇、项目代号及生僻人名地名 [6]
豆包发布语音识别模型2.0,支持多模态视觉识别和13种海外语种识别
凤凰网· 2025-12-05 16:55
公司产品发布 - 火山引擎正式发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0) [1] - 新模型依托Seed混合专家大语言模型架构构建 [1] 模型性能提升 - 模型推理能力提升,可通过深度理解上下文完成精准识别 [1] - 模型上下文整体关键词召回率提升20% [1] - 模型支持多模态视觉识别,可通过单图和多图等视觉信息输入提升文字识别精准度 [1] - 模型重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了升级 [1] 语言支持扩展 - 模型支持日语、韩语、德语、法语等13种海外语种的识别 [1]
火山引擎发布豆包语音识别模型2.0
智通财经网· 2025-12-05 16:24
产品发布与核心升级 - 火山引擎于12月5日正式发布豆包语音识别模型2.0 (Doubao-Seed-ASR-2.0) [1] - 模型基于Seed混合专家大语言模型架构构建,延续了1.0版本中20亿参数高性能音频编码器的优势 [1] 技术性能提升 - 模型推理能力提升,通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20% [1] - 重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行优化升级 [1] 功能扩展 - 支持多模态视觉识别,不仅能“听懂字”还能“看懂图”,通过单图和多图等视觉信息输入让文字识别更精准 [1] - 支持日语、韩语、德语、法语等13种海外语种的精准识别,具备混合语言精准识别能力 [1]
豆包发布语音识别模型2.0 支持多模态视觉识别和13种海外语种识别
每日经济新闻· 2025-12-05 16:10
公司产品发布 - 火山引擎于12月5日正式发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0)[1] - 该模型依托Seed混合专家大语言模型架构构建[1] 模型性能提升 - 2.0版本模型推理能力得到提升[1] - 模型可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%[1] - 模型重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了升级[1] 功能与特性扩展 - 模型支持多模态视觉识别,在听得懂的同时看得懂[1] - 模型可以通过单图和多图等视觉信息输入提升文字识别精准度[1] - 模型支持日语、韩语、德语、法语等13种海外语种的识别[1]
豆包输入法上线,用了两天我在微信聊天不想再打字
新浪财经· 2025-11-25 00:25
产品核心功能 - 语音输入功能是核心竞争力,在中文、英文和粤语识别准确度上表现突出,对语速快、同音字多的句子也能准确识别[2][3] - 支持粤语夹英文的混合输入模式,测试例句如“Sorry 啊,我地已经尽晒力啦”均能正确识别[4] - 具备语音输入数学公式的能力,对学生、教师和科研人员具有实用价值[5] - 采用Seed-ASR2.0模型技术,在中英文测试集上的错误率较之前的大型ASR模型降低10%-40%[6] - 支持下载约150MB的离线语音模型,可在信号弱的环境下使用语音输入功能[6] 产品基础性能 - 安装包体积为139MB,但功能尚不完整,被形容为“毛坯房”[1] - 基础词库丰富度达到主流输入法水平,能正确识别网络词汇如“确实型人格”和生僻字如“饕餮”[9] - 具备AI联想能力,输入“1+1=”或“西游记的作者是谁”可直接在候选栏显示结果[11] - 默认设置下打字响应速度不够快,但可通过调整设置为“极快”模式改善[13] - 键盘震动强度设置存在异常,“弱”档震感强而“强”档震感弱,可能是软件缺陷[13] 产品生态与兼容性 - 目前仅上线Android版本,iOS版显示即将上线,PC版仍处于开发阶段[11] - 暂不支持跨设备复制粘贴功能,对多设备用户使用体验造成影响[11] - 输入方式仅支持9键和26键,缺乏双拼、手写输入和繁体中文支持[15] - 表情包功能仅限于自带表情,无法实现表情包搜索和发送[15] - 键盘皮肤仅提供默认样式,设置页面缺乏深色模式选项[15] 技术特性与隐私保护 - 提供“基础输入”模式,关闭后可禁用语音转文字和翻译功能以保护隐私[7] - AI翻译功能存在局限性,如输入“LLM”会默认显示为“法学硕士”而非“大语言模型”[15]
豆包输入法正式上线,语音识别精准,支持多方言
新浪科技· 2025-11-24 17:00
产品发布与功能 - 豆包输入法正式上线,提供语音输入和键盘输入两种方式 [2] - 语音输入基于豆包App同款语音模型,在语音识别和语义理解方面有提升,支持多种方言、英语及中英混合输入,并具备自动纠错功能 [2] - 键盘输入支持自动纠错和文字、符号、emoji表情等多种智能联想 [2] 语音输入技术特点 - 语音输入可在复杂环境下实现精准识别,适应轻声、快速说话以及嘈杂环境等多种场景 [2] - 用户手动修正一次语音识别错误后,系统即可记住修正结果,实现个性化识别效果 [2] - 针对高频错误,系统会在光标移动至文字右侧时自动弹出同音词选项,无需重新录音 [2] 方言与多语言支持 - 产品目前已支持粤语、四川话、陕西话、江淮方言、冀鲁方言、兰银方言、晋语等多种方言输入 [2] - 部分方言识别准确率接近普通话 [2] 市场推广与渠道 - 豆包输入法目前已正式上线安卓应用商店 [3] - 产品将于近期登陆苹果应用商店 [3]
翻译界的ChatGPT时刻,Meta发布新模型,几段示例学会冷门新语言
36氪· 2025-11-11 20:12
技术突破与性能表现 - 发布的Omnilingual ASR系统能自动识别转录1600多种语言,创造了语音识别覆盖语言数量的新纪录,其中包括500种此前从未被任何AI系统转录过的语言 [1][2][5] - 系统识别性能领先,在测试的1600多种语言中,有78%的语种其字符错误率低于10%;对于训练语料超过10小时的语种,该比例达到95%;即使在训练语料极少的低资源语言中,仍有36%实现了字符错误率低于10%的效果 [7][8] - 模型支持从约3亿参数的轻量级版本到高达70亿参数的强力版本,训练使用了超过430万小时的语音音频,涵盖1239种语言的素材,是有史以来最大规模、多样性最高的语音训练语料之一 [16][18] 核心创新与可扩展性 - 系统引入了零样本的上下文学习机制,用户可通过提供少量音频和文本示例,在推理过程中即时让模型学会一种新语言,无需大规模语料收集和专业训练 [10] - 凭借少样本学习能力,该系统的潜在语言覆盖能力理论上可以扩展到超过5400种语言,几乎涵盖所有有文字记录的人类语言,实现了从静态封闭到动态自适应的范式转变 [10] - 模型架构采用自监督预训练的wav2vec 2.0语音编码器,并结合传统CTC解码和融入Transformer的大模型文本解码器,后者赋予了模型强大的上下文学习能力 [16] 开源策略与社区合作 - 公司选择将整套多语种ASR系统在GitHub上完全开源,采用Apache 2.0许可发布模型和代码,可供免费使用、修改和商用 [11] - 同步释放了一个巨大的多语言语音数据集——Omnilingual ASR语料库,包含350种语料稀缺语言的转录语音数据,所有数据以CC-BY协议开放提供 [13][14] - 开发过程与全球语言组织和社区合作,如Mozilla基金会的Common Voice项目、非洲的Lanfrica/NaijaVoices等机构,采用社区共创模式收集大量语音样本 [14][15]
140+页PPT详解全球科技发展趋势与材料产业最新进展
材料汇· 2025-07-18 23:50
人工智能和机器人 - 计算创造力是跨学科研究,位于人工智能、认知心理学、哲学和艺术之间,目标是使用计算机对创造力进行建模、模拟或复制 [9] - 无人驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作实现自动安全操作 [9] - 外骨骼机器人核心技术系统包括传感器系统、控制系统和驱动系统,根据驱动方式可分为液压驱动、气动及电机驱动 [10][11] - 高光谱成像技术基于非常多窄波段的影像数据技术,将成像技术与光谱技术相结合,具有光谱分辨率高、"图谱合一"和突出的地物识别能力 [11] - 语音识别技术包含特征提取、声学模型训练、语言模型训练和语音解码四个主要步骤 [13][14] - 群体智能是指各种对象的集体行为,集群机器人是群体智能的一种,应用方向包括物流、自动驾驶、精准农业等 [15][16] - 军用无人机核心技术集中在总体技术、动力系统和飞控系统 [17] - 人工智能关键技术包括机器学习、神经网络、自然语言处理、基于规则的专家系统和物理机器人 [18][19] - 全息技术利用干涉原理记录物体光波信息,全息投影技术主要有空气投影和交互技术、激光束技术和360度全息显示 [20] - 类人机器人研究将人脑模拟系统、电子神经网络与机器人平台深度融合,实现视觉、听觉、思维和运动协同 [21] - 神经科学研究神经回路功能,最终目的是找出影响想象力的方法,与人工智能相辅相成 [22][23] - 柔性机器人具有高灵活性、可变形性和能量吸收特性,三大技术要素是机器感知、机器行动和人机交互 [27][28] - 非接触手势识别技术包括光学传感和雷达检测两种方式 [29][30][31] - 飞行汽车需要依托自动驾驶、轻量化材料和电池技术等多方面科技创新 [32][33] 人机交互和仿生 - 神经形态芯片模仿大脑处理数据,具有低功耗、低延迟特点,英特尔2021年推出Loihi 2芯片 [87] - 仿生学通过研究生物系统为工程技术提供新设计思想,在医学领域用于代替或增强人体部件 [88] - 脑功能映射技术包括功能性磁共振成像(fMRI)和一体化正电子发射断层成像(PET) [90][91] - 情绪识别通过计算机视觉和机器学习技术识别面部表情和行为动作 [93][94][95] - 智能纹身由可穿戴皮肤电极组成,能够感知外界刺激和监测生理数据 [95][96][97] - 脑机接口分为侵入式和非侵入式,侵入式采用刚性或柔性电极,非侵入式常用脑电帽 [98][99] - 人工突触模仿人脑突触传递信号方式,发展离不开忆阻器和二维材料技术 [100][101] 电子与计算机 - 柔性电子将有机、无机材料沉积在柔性基板上形成电子元器件,制造关键包括基板、材料和工艺 [126][127] - 纳米发光二极管利用纳米材料制备,具有更高发光效率和更低能耗 [128] - 碳纳米管具有出色力学、电学和化学性能,工业化生产工艺包括化学气相沉积、电弧放电和激光烧蚀 [129][130][131] - 计算内存将数据存储于服务器内存中加速处理,主要有近数据计算和存内计算两种形式 [131][132][133] - 石墨烯晶体管具有出色导电导热性能,制备方法包括化学气相沉积法、"点籽晶"诱导生长法和"内外碳源协同"法 [133][134] - 高精度时钟同步技术包括GPS、NTP和PTP协议,精度从纳秒级到毫秒级 [135][136] - 纳米线具有出色电子传输特性,可通过化学气相沉积、激光剥离等多种工艺生产 [138][139] - 光电子学器件包括发光二极管、太阳能电池、光敏电阻、激光二极管等 [141] - 量子计算机使用量子位元进行计算,关键技术包括量子处理器、纠错编码和软件算法 [142][143] - 量子密码学利用量子力学特性加密,主要技术挑战包括经典信息技术、量子中继技术和后量子密码技术 [144][145][146] - 自旋电子学通过操纵电子自旋自由度,在数据存储、逻辑运算等方面具有应用潜力 [148][149] 新材料进展 - 液态金属具有导电性强、热学特性优异特点,应用领域包括计算机芯片散热、软机器人、医疗材料等 [34] - 球形TiAl合金粉末具有密度低、高温力学性能优异特点,应用于汽车、航空航天等领域 [39][40][41][42] - 航空发动机叶片高温合金分类包括等轴晶铸造高温合金、定向凝固高温合金和单晶高温合金 [49][50] - 超高分子量聚乙烯具有良好的化学稳定性和耐磨性,催化剂对树脂形态、粒度等有重要影响 [63][64] - 精细金属掩模版是OLED显示面板生产关键组件,制备工艺包括蚀刻法、电铸工艺和激光加工 [110][111] - 柔性显示发光材料根据发光颜色分为红、绿、蓝三色,根据材料类型分为荧光材料和磷光材料 [120][121] - 自修复材料损伤后可自动修复,分为高分子、无机非金属和金属基三类 [102][103] - 第三代半导体材料SiC具有更大禁带宽度和更高击穿电场强度,适用于耐高压、高温器件 [150][151] - 低温共烧陶瓷技术将多层陶瓷元件与电路图形结合,形成无源元件或集成三维互联电路 [161][163] 产业格局 - 全球碳纤维市场被日本企业主导,东丽、帝人、三菱化学占据近70%份额 [55][56][57] - 2021年全球UHMWPE市场规模18.5亿美元,预计2027年达28.8亿美元 [63][64] - 2021年全球金属掩模版市场规模7.9697亿美元,预计年增长率34% [113][114] - 2021年全球OLED发光材料市场规模约15.2亿美元,同比增长17% [123][125] - SiC衬底市场美国企业占优,Wolfspeed和II-VI是行业巨头 [152][153] - LTCC产品市场被日本村田、京瓷和博世垄断,合计份额54% [163][164]
小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现
量子位· 2025-07-16 15:02
AI宠物技术实现 - 核心硬件采用3D打印底座和圆锥形头顶,悬挂一条触手结构,触手源自SpiRobs机器人,能抓取尺寸相差超两个数量级、重量达自身体重260倍的物体[8][10] - 视觉系统通过立体摄像头追踪触手末端,使用YOLO模型进行3D三角测量校准[12][31] - 触手控制采用2D映射简化操作,通过电脑触控板拖动光标即可调整触手动作[22][23] 控制系统架构 - 低级控制层结合开环预设动作(如点头)和闭环RL策略(如手指跟踪),立体视觉约束RL观察空间[25][26] - 高级控制层采用GPT-4o实时API处理语音与视觉事件,无需微调即可下达底层指令[26][27] - 为增强生命感,在待机状态加入轻微摇摆行为,并通过Prompt工程解决LLM调用问题[28][29] 强化学习与仿真优化 - 在MuJoCo中重建软体触手模型,设置目标跟踪环境,使用PPO策略梯度结合MLP和帧堆叠训练[33] - 添加动力学随机化(质量、阻尼、摩擦)以贴近真实环境,通过控制惩罚和指数移动平均解决抖动问题[36][37] - 最终实现仿真到真实环境的迁移,验证控制策略有效性[38] 开发者背景与灵感来源 - 开发者Matthieu Le Cauchois为ML工程师,研究方向包括强化学习、NLP,曾创立AI公司Typeless并被Doctolib收购[39][41][42] - 项目灵感源自皮克斯台灯机器人,强调通过动作和时机传递情绪意图,动物形态设计增强宠物陪伴感[48][49][53] - 工程文件开源,包含3D打印CAD数据和控制脚本,支持低成本复现[20][54]