Omnilingual ASR语音识别模型套件
搜索文档
腾讯研究院AI速递 20251112
腾讯研究院· 2025-11-12 00:06
生成式AI行业人才与战略布局 - OpenAI成功招募英特尔CTO兼首席AI官Sachin Katti,由其负责为OpenAI打造面向AGI的算力基础设施 [1] - Katti拥有20多年无线通信和AI基础设施领域经验,曾创办多家科技公司并在斯坦福任教,今年4月刚被英特尔提拔为CTO [1] - OpenAI计划未来8年斥资约1.4万亿美元打造AI基础设施,Katti的加入对公司自主算力布局意义重大 [1] 语音识别与多语言模型进展 - Meta AI FAIR团队发布Omnilingual ASR语音识别模型套件,能为超过1600种语言提供自动语音识别能力,78%语言字符错误率低于10% [2] - 该框架采用社区驱动设计,用户仅需提供少量样本即可将模型扩展到新语言,首次实现大规模ASR框架的上下文学习能力 [2] - 同时开源Omnilingual ASR Corpus数据集(覆盖350种服务欠缺语言)和70亿参数的Omnilingual wav2vec 2.0语音表征模型 [2] 空间智能与代码模型开源发布 - 商汤发布并开源SenseNova-SI系列空间智能大模型(2B和8B版本),其中8B模型在四个核心空间智能任务上平均成绩60.99,领先GPT-5和Gemini-2.5-Pro [3] - 该系列模型首次在空间智能领域验证了“尺度效应”,构建了六大核心维度的空间能力分类体系,包括空间测量、空间重构、视角转换等 [3] - 火山引擎推出Doubao-Seed-Code代码模型,调用价格降低,0-32k区间输入仅1.20元/百万Token,是支持视觉理解能力的编程模型,可参照UI设计稿生成代码 [3] 前沿科技与基础设施创新 - 浙江大学和新加坡南洋理工大学首次系统性提出在太空构建碳中和数据中心的完整技术框架,利用近乎无限的太阳能和深空散热条件 [4] - 研究提出两种方案:在遥感卫星上集成AI加速器构建“轨道边缘数据中心”,以及组建计算卫星星座形成“轨道云数据中心” [4] - 创新性提出“全生命周期碳利用效率”评估模型,初步建模显示长期碳效率有望超越中等碳强度地面数据中心 [4] AI能力发展预测与行业应用现状 - Anthropic研究员指出AI长任务能力每7个月翻一番,预测2026年中期模型将能自主工作8小时,年底前至少有一个模型在多个行业匹配人类专家 [5] - 麦肯锡调查显示88%组织至少在一个业务环节使用AI,但仅39%表示AI带来实质性财务回报(EBIT增长) [7] - 62%组织已试验AI Agent类应用,但真正在任何一个部门推AI Agent的公司不到一成,高绩效企业中50%打算推动AI主导的变革性改变(普通企业仅14%) [7] 模型研发理念与下一代AI方向 - 月之暗面核心团队打假Kimi K2训练成本460万美元传言,称训练成本很难量化,已在研究K2的VL版本 [6] - 杨植麟解释K2 Thinking现阶段优先考虑绝对性能而非token效率,KDA混合线性注意力模块可能出现在K3中 [6] - 李飞飞发表长文强调空间智能是人类智能基石,定义世界模型必须具备生成性、多模态性、交互性三种能力 [8] AI社交平台发展与用户参与 - Sora上线40天内实现近200万周活跃用户,其中70%用户参与创作,远超传统互联网90-9-1规则 [9] - 团队将Sora定位为社交创作平台而非单人工具,推荐算法优先推送“有二创价值”内容,强调真实人际关系和共创体验 [9] - 采用积分制灵活变现,平衡平台、创作者和版权方三方利益,通过降低创作门槛实现用户民主化创作 [9]