Workflow
语音AI
icon
搜索文档
肥城市以英语“人机对话”测评破题 探索教育数字化与评价改革融合路径
齐鲁晚报网· 2025-06-30 14:43
教育数字化转型 - 肥城市以小学英语"人机对话"测评作为突破口,组织44所小学2.5万名三至五年级学生开展系统性测评,探索教育数字化转型与评价改革融合的新路径 [1] - 通过半年时间从8所试点校扩展到全域覆盖,重点解决农村学校网络卡顿、教师操作不熟、学生基础薄弱三大难题 [3] - 设立专项基金完成农村学校网络带宽扩容,并通过三级教研机制实现217名英语教师数字技能全覆盖 [3] 技术应用与测评创新 - 测评系统搭载智能语音AI技术,实时生成包含语音诊断、能力分析、学习建议的三维度个性化报告 [5] - 系统精准标记单词重音错位、连读弱读等发音特征,实现从"经验评价"到"智能诊断"的转变 [6] - 农村学校测评系统适配成功率从65%提升至98%,为全域推广奠定基础 [3] 教学效果与数据驱动 - 农村学生"音素拼读"正确率提升21个百分点,城乡学生"情境应答"平均分差从12.5分收窄至5.2分 [8] - 肥城市桃花源小学通过数据定位发现学生"综合表达"成绩较弱,开发专题微课靶向教学后,测试结果提升15个百分点 [8] - 形成"智能测评—精准教学—动态反馈"的闭环机制,实现从经验教学到数据驱动教学的转型 [8] 改革拓展与行业影响 - 肥城实践被评价为技术与教育场景融合的典型案例,推动评价改革从经验主导到数据支撑的深层转型 [8] - 改革从英语学科单点突破拓展至全科评价场景,探索核心素养导向的教育评价新体系 [8]
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
机器之心· 2025-06-17 12:50
想象一下,如果 AI 能够像人类一样自然地进行语音对话,不再需要传统的 「 语音转文字(ASR)- 文本大模型处理(LLM)- 文字转语音(TTS) 」 的 繁琐流程,而是直接理解和生成语音,那将是怎样的体验?这就是 语音大模型 (语音语言模型,SpeechLM)要解决的核心问题。 传统的语音交互系统存在三大痛点:信息丢失、延迟严重、错误累积。当语音转换为文字时,音调、语气、情感等副语言信息完全丢失;多个模块串联导致 响应延迟明显;每个环节的错误会层层累积,最终影响整体效果。 SpeechLM 的出现彻底改变了这一局面。它能够端到端地处理语音,既保留了语音中的丰富信息,又大幅降低了延迟,为真正自然的人机语音交互铺平了 道路。 本文第一作者:崔文谦,香港中文大学博士生,致力于语音大模型,多模态大模型,AI音乐生成等方向的研究。 由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收!这 是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。 ArXiv链接:https: ...
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
机器之心· 2025-05-15 14:04
| 机器之心报道 | | --- | | 编辑:杜伟、陈陈 | | 国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷 | | 信」国外大模型。 | | 如今,在语音 AI 领域,国产大模型第一梯队的重量级选手 MiniMax 又抛下了一颗「重磅炸弹」。 | | 我们看到,其 全新一代 TTS 语音大模型「Speech-02」在国际权威语音评测榜单 Artificial Analysis 上强势登顶,一举击败了 OpenAI、ElevenLabs 两大行业巨头 | | ! | | 其中,在字错率(WER,越低越好)和说话人相似度(SIM,越高越好)等关键语音克隆指标上均取得 SOTA 结果。 | | 图源: Artificial Analysis Speech Arena Leaderboard | | 这项成绩直接震惊国外网友,他们纷纷表示:「MiniMax 将成为音频领域的破局者。」 | | 7:40 PM · May 3, 2025 · 406 Views | | | | --- | --- ...
速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成
Z Potentials· 2025-04-23 11:49
图片来源: Nari 两名没有高度专业 AI 知识的本科生表示,他们已经创建了一个公开可用的 AI 模型,可以生成类似 于 Google 的 NotebookLM 的播客风格的剪辑。 合成语音工具的市场巨大,并且还在不断增长。 ElevenLabs 是最大的参与者之一,但不乏挑战者 (参见 PlayAI 、 Sesame 等)。投资者认为这些工具具有巨大的潜力。 根据 PitchBook 的数据 ,开发语音 AI 技术的初创公司去年筹集了超过 3.98 亿美元的风险投资。 Nari Labs 是新发布模型背后的团队,总部位于韩国的联合创始人之一 Toby Kim 表示,他和他的同事 在三个月前开始学习语音 AI 。受 NotebookLM 的启发,他们希望创建一个模型,该模型可以更好地 控制生成的声音和 " 脚本中的自由度 " 。 Kim 说,他们使用了 Google 的 TPU Research Cloud 计划来训练 Nari 的模型 Dia ,该计划为研究人 员提供了对该公司 TPU AI 芯片的免费访问。 Dia 有 16 亿个参数,可以从脚本中生成对话,让用户 自定义说话者的语气并插入不流畅、咳嗽、 ...