Workflow
开源
icon
搜索文档
没想到,音频大模型开源最彻底的,居然是小红书
机器之心· 2025-09-17 17:37
开源AI音频模型发展现状 - 近几个月国内科技公司开源成为主旋律 七八月国内厂商接连开源33款和31款各类型大模型 主要集中在文本、图像、视频、推理、智能体及世界模型领域 音频生成占比很小[1] - 音频生成面临技术和数据特殊挑战 音频信号计算建模复杂 数据获取难度更大 同时出于安全版权风险考量 OpenAI、ElevenLabs等主流玩家选择闭源或半开源[2] 小红书音频开源技术成果 - 小红书技术团队自去年起在音频领域保持稳定开源节奏 推出FireRedTTS和FireRedASR等系统级音频能力 取得SOTA级别效果并具备工业级可商用属性[3] - FireRedTTS语音合成系统构建基座语音合成框架 只需给定文本和几秒参考音频即可模仿任意音色和说话风格 实现自由定制[6] - FireRedASR语音识别系统包含两个模型 FireRedASR-LLM追求极致识别精度 FireRedASR-AED兼顾准确率与推理效率[6] - 在AISHELL-1/2、WenetSpeech等中文普通话测试集上 FireRedASR字错率(CER)为3.05% 优于豆包Seed-ASR的3.33%和阿里通义Qwen3-ASR-Flash的3.52%[7][8] - 新一代FireRedTTS-2解决语音合成现有方案痛点 在音色克隆、交互式对话和播客生成的主客观测评中实现行业领先 成为当前最强开源播客生成大模型[9][11] - FireRedTTS-2在zero-shot播客生成中全面优于MoonCast、ZipVoice-Dialogue、MOSS-TTSD等开源竞品 支持4位说话人多轮对话生成 可通过扩展数据进一步扩展[14] - 推出业内首个完全开源的全双工语音对话系统FireRedChat 在智能判停与延迟等关键指标达到开源SOTA 端到端性能接近工业级水准[17] - FireRedChat一站式提供VAD、ASR、TTS、上下文感知TTS、音频LLM、Dify支持等核心模块 支持私有化部署 为非专业人士提供快速部署语音助手能力[17] 小红书开源战略布局 - 小红书通过开放高质量音频模型提升技术影响力与话语权 将开源作为长期战略布局 构建高粘性音频大模型开源社区[4] - 围绕文本转语音、语音识别和语音对话形成完整技术栈 探索出以FireRedASR技术为支撑的语音评论等新功能 提升用户粘性与互动趣味性[18] - 开源覆盖语音交互核心环节 从TTS、ASR到语音对话技术矩阵日趋完善 未来计划推出音乐大模型FireRedMusic、多语种语音识别系统FireRedASR-2及音频感知大模型[22] - 开源从模型层走向体系层 扩展至全链路模块 提供系统化能力 降低开发者集成与部署门槛 扩大音频生态创新边界[22] - 目标是建立首个工业级可商用音频大模型开源社区 涵盖语音识别理解、语音音效生成、全双工语音交互、音乐理解生成四大方向[23] - 工业级可商用属性释放更大价值 开发者和企业用户可直接部署使用 缩短技术到产品周期 降低试错成本[23] - 通过开源生态与全球开发者协同进化 推动行业标准演进 为全球创作者创造价值 开启内容生产新范式[23] 开源生态行业影响 - 开源让先进AI能力不再被少数巨头垄断 沉淀为行业共享底层资源 推动大模型技术跃迁[25] - 在开源生态中 模型框架和工具快速迭代自由组合 通过更多创新尝试加快新技术落地 尤其在AI应用长尾场景中 社区广泛参与推动AI从实验室走向产业化[25] - 小红书通过开源持续推动音频大模型技术演进 释放前沿能力 实现技术平权 为开发者和中小企业提供平等技术起点[25] - 在开源生态主导权上的长远布局 为小红书在未来AI音频市场竞争中抢占先机[26]
王兴兴、朱啸虎们说了些AI创业真心话
36氪· 2025-09-14 16:59
商业化策略 - 追求商业化应避免使用最新技术 而采用更稳定但看似不起眼的技术[1][23] - AI应用评估关键指标为用户留存而非年度经常性收入(ARR)[3][16][17] - 低代码/无代码软件已被大模型大规模替代 相关公司融资估值大幅缩水[9][10][14] - 协同类软件(如Figma)市场需求降低 用户减少10%即产生重大影响[13][14][15] 投资方向与机会 - 语音结合多模态输入成为AI超级入口的明确趋势[9][10] - 与现实世界结合的Agent应用存在创业机会 例如线下服务场景[10] - 会议纪要转录(transcript)技术实现最佳商业化案例 Plaud公司估值达10亿美元[19][20] - Voice Agent在客服中心、销售和玩具领域达到大规模商业化水平[22] 技术发展现状 - Transformer架构存在1%幻觉问题 无法替代复杂流程管理软件[9] - 具身智能领域仍处早期阶段 多模态融合与机器人控制存在技术挑战[24][27][28] - 模型能力提升可提高数据利用率 缓解高质量数据采集的噪声问题[25][26] - 当前硬件性能充足 但模型能力不足以充分利用(如灵巧手控制)[28] 组织管理变革 - AI公司需建立扁平高效的小型组织架构[3] - 团队扩充可能降低效率 智能密度不足导致人员冗余[5][39] - 顶尖小型团队(如30人)可完成传统需300-1000人的工作量[39][40] - 组织需摒弃过去经验依赖 聚焦半年内的最新技术动态[30][31] 开源模式演进 - 开源重点从代码转向资源(数据与计算资源)开放[7][42][49] - 2025年1月美国出口管制政策豁免开源权重 促成千问Qwen和DeepSeek开源[43] - OpenAI承认在开源问题上"站在历史错误一边"[43] - 2017年Transformer和Tokenization技术使数据资源化 推动规模千倍增长[47] - 资源开源(Open Resource)成为行业发展的关键环节[49][50]
云姨夜话丨AI时代,进步不是“跑得快”
齐鲁晚报· 2025-09-13 21:49
人工智能技术影响 - 人工智能触及社会中枢神经系统 区别于以往技术 危险在于无形算法决策过程而非机器人叛乱 [2] - 人工智能不仅是自动化工具 更是会行动的主体 能够自主决策甚至创造全新想法 [3] - 人工智能在疾病研究 原子物理 化学反应等领域将很快超越人类 但在情感领域人类仍保有优势 [5] 人工智能商业化 - AI创业公司投资关键指标是用户留存率 决定公司后续发展潜力 [4] - 适合商业化的AI项目往往技术稳定而非最前沿 技术难度不大但商业化容易 [4] - 商业化应选择相对稳定成熟的技术方向 不必盲目追求最新最潮技术 [4] 开源与计算发展 - 2025年开源成为AI竞争关键变量 沿用软件时代概念但被重新定义 [3] - 人类探索火星需要计算陪伴和AI 这是未来10-20年最激动人心的领域 [3] - 去年诺贝尔物理学奖和化学奖均颁给AI研究成果 未来所有诺贝尔奖可能都由AI获得 [6] 人类应对策略 - 必须守护人类记忆和讲述自身故事的能力 避免将记忆托付给非人类智能 [2] - 需要保留足够时间保存记忆 建立信任与感情 技术进步应衡量合作力度和共情深度 [3] - 世界将迎来急剧变化 需要培育灵活变通头脑 坚持终身学习适应变化 [6]
外滩大会今年太AI了!王坚暴论:OpenAI确实站在了历史错误的一边
量子位· 2025-09-12 11:24
大会概况 - 外滩大会展示前沿科技包括机器宠物恐龙、AI健康检测、炒菜机器人、打鼓机器人、蛋壳雕刻机器人、AI健身房及核聚变装置[1][3][5] - 科技展览面积达10000平方米 科技集市面积达5000平方米[5] - 大会设置1场开幕主论坛和44场见解论坛 探讨智能上限、产业落地困难及算力差距等议题[6] - 参会嘉宾包括新晋图灵奖得主理查德·萨顿、阿里云创始人王坚、金沙江创投朱啸虎、尤瓦尔·赫拉利及宇树科技CEO王兴兴等来自16个国家地区的550位嘉宾[6][71] 人工智能发展趋势 - 人类数据红利正逼近极限 人工智能进入以持续学习为核心的经验时代[9][10] - 智能体需通过观察、行动和奖励三种信号与世界交互生成新数据源[14][16] - 强化学习推动经验时代发展 但需突破持续学习与元学习技术瓶颈[18] - 人工智能超越人类不可避免 权力资源将流向最聪明智能体[19][21] 开源战略与竞争格局 - 开源已成为AI竞争关键变量 美国将模型权重纳入出口管制但仅限闭源模型[22][25] - 开源概念从1998年源代码开放演变为数据、算力和模型权重等核心资源共享[26][27] - 2017年Transformer与Tokenization技术推动数据资源化 带动AI指数级飞跃[28] - 模型权重开放降低AI门槛 使全球开发者能基于前人成果创新[29][30] 技术突破与产业应用 - 之江实验室将8B大模型与12颗卫星送入太空 实现太空在轨智能计算与数据全域处理[31][32] - 三体计算星座计划在开放资源前提下实现多主体高效协作 构建太空计算能力共享生态[34][35] - 具身智能产业崛起 赋予机器人AGI能力实现自主感知规划与行动[50] - AI与机器人融合面临数据采集质量不足、多模态融合困难及模型与控制模态对齐等技术挑战[51] 投资与商业化前景 - 低代码/无代码软件将被AI替代 尤其编辑类与协作类工具[54] - 投资人关注AI产品用户留存指标 召回成本达移动互联网产品10倍以上[55][56] - 2025年AI应用将爆发式增长 新头部企业可能已在2024年成立[57] - 中国创业者擅长在AI外构建差异化体验 侧重C端市场而非美国B端模式[58][59] 智能本质与科学路径 - 当前AI缺乏智能本质科学理解 发展阶段仅相当于生命初期种系智能阶段[37][39][41] - 智能需从依赖试错的"黑箱"转向基于数学原理与闭环反馈的"白箱"模型[42] - 自然大脑能效比GPU训练高10个数量级 需借鉴自然反馈控制与连续学习机制[43][44] - 智能演化经历种系遗传、个体发育、群体智能最终到人工智能四阶段[40] 社会影响与治理框架 - AI不仅是自动化工具更是会行动的主体 能自主决策并创造新想法[61][62] - 技术进步需兼顾速度与治理 缺乏刹车规则的高速发展非真正进步[64][67] - 全球需建立可验证承诺 为社会保留适应时间以保存记忆信任与情感[69][70] - 衡量进步标准在于合作力度与共情深度而非技术速度[70]
阿里云创始人王坚: AI不能因算力的缺失而缺席太空
深圳商报· 2025-09-12 07:02
AI行业发展趋势 - 开源模型与闭源模型的选择成为AI竞争关键变量 [1] - 开源含义从代码开源演进为资源开放 开放数据和计算资源是推动AI发展的必需环节 [1] - 模型权重开放本质是数据资源和计算资源的开放 可大幅减少重复计算资源投入 [1] 太空计算创新 - 之江实验室将12颗卫星组成星座并送入太空 首次实现将8B参数大模型完整部署至太空 [2] - 卫星星座被命名为"三体计算星座" 可实现太空任意位置的数据实时处理 [2] - 未来计划将每颗卫星开放给全世界使用 为深空探索奠定技术基础 [2] 技术应用前景 - 人工智能将催生第四种卫星类型"计算卫星" 突破传统通信/导航/遥感卫星范畴 [1] - 太空AI算力是实现深空探索的关键技术 支持火星探测等长远太空任务 [2] - 太空成为最大资源开发领域 人工智能应用不应局限于手机和电脑设备 [1]
预见AI:人类进入新“经验时代” 唯有人造太阳能喂饱AI
南方都市报· 2025-09-11 23:58
人工智能发展趋势 - 人工智能发展正从"数据时代"进入"经验时代" 训练大模型的数据几乎耗尽 智能体通过观察、行动和奖励信号与世界交互 [3] - 强化学习带领进入新经验时代 但需持续学习和元学习技术释放全部潜力 [3] - 人工智能替代不可避免 权力和资源将流向最聪明的智能体 [4] 开源与资源开放 - 开源成为AI竞争关键变量 从代码开源演进为资源开放 [5] - 开放数据和计算资源是推动AI发展的必需环节 [6] - 之江实验室将8B参数模型部署至太空星座 提出"计算卫星"新概念 [6] 机器人产业发展 - 具身智能发展面临高质量数据采集和模型算法挑战 多模态数据融合不理想 [7] - 机器人控制模态对齐存在技术难点 [7] - AI落地应用仍处于爆发性增长前夜 [7] 企业AI转型 - AI转型最大瓶颈在组织文化 必须由CEO主导且业务驱动 [8] - 需聚焦利润而非应用场景 打破组织壁垒和惯性 [8] - "本地对本地"模式成为全球现象 企业需建立分散化全球布局 [8] 中国企业全球化 - 中企海外收入占比仅8% 远低于韩国的65% [9] - 全球品牌百强中仅12家中国企业 美国有61家 [9] - 全球化3.0阶段需输出IP和专长 建设国际化团队 [10] 能源需求与核聚变 - AI用电量占全球1.5% 预计将增长至20%以上 [11] - 核聚变能量密度极高 1克燃料相当于8吨石油 [2][11] - 全球核聚变公司累计获投71亿美元 同比增长9亿美元 [12] - 89%企业看好2030年代末实现并网发电 [12] 技术突破路径 - 可控核聚变存在激光惯性约束和磁约束两大技术方向 [12] - 磁惯性约束混合路径可降低造价和建造时间 [12] - AI技术助力解决核聚变物理过程理解难题 [12]
图灵奖得主理查德·萨顿、王坚、韩歆毅、王兴兴等最新发声
中国基金报· 2025-09-11 22:53
大会概况 - 2025外滩大会汇集来自16个国家和地区的550位嘉宾,包括顶尖学者、产业界人士和科学家 [1] 人工智能发展范式 - 人工智能正从依赖人类数据的模式进入以持续学习为核心的“经验时代”,潜力远超以往 [1] - 对人工智能的恐惧被夸大,目标不同的智能体可通过去中心化协作实现双赢 [1] - 人类将真正理解并创造智能,超级人工智能将远超人类智力水平,权力和资源将流向最聪明的智能体 [2] 开源与AI竞争格局 - AI时代的“开源”含义已从代码开源演进为资源开放,开放数据和计算资源是推动AI发展的必需环节 [4] - 开源模型与闭源模型的选择是AI竞争的关键变量,2025年开源成为重要影响因素 [4] - 通义千问Qwen和DeepSeek的开源促使OpenAI承认在开源上站在历史错误一边 [4] AI基础设施与产业化 - 大模型的“规模定律”仍然有效,AI正驱动基础设施大规模扩张 [6] - OpenAI的Stargate和Musk的Colossus等项目,100万个GPU的耗电量相当于北京市用电量的八分之一 [6] - 2025年美国主要科技公司的AI相关资本开支预计超3000亿美元,带动IDC产业大规模建设热潮 [6] - 模型和GPU算力将成为未来组织的核心资产,Agent将重塑企业流程 [6] 智能的本质与技术挑战 - 当前AI缺乏对智能本质的科学理解,仅具“知识”而非“智能”,是静态知识存储库 [8] - 智能的核心在于“自我验证与自我纠错”能力,需从“黑箱”系统转变为基于数学原理的“白箱”模型 [8] - 必须构建具备个体记忆与闭环自治能力的系统,推动机器向“自主智能”演进 [8] AI医疗应用前景 - AI在相当长时间内无法替代医生,应定位为医生的助手,人机结合是唯一出路 [9] - AI医疗可让名医“分身有术”,专注科研和疑难杂症,同时让基层医生拥有好助手 [9] - AI医疗落地面临高质量数据、抑制幻觉和医学伦理三大核心难题 [9] 具身智能与机器人产业 - 当前AI在内容生成方面表现卓越,但在真正让AI干活(具身智能)领域仍是一片荒漠 [10] - 具身智能发展面临高质量数据及模型算法挑战,如生成视频与机器人控制模态的对齐问题 [11] - AI时代创新创业门槛大幅降低,小组织爆发力越来越强,年轻创新者迎来好时代 [11]
阿里云王坚:从代码开源到资源开放是AI时代革命性变化
国际金融报· 2025-09-11 19:37
AI行业发展趋势 - 开源模式成为AI竞争的关键变量 从代码开源演进为资源开放是AI时代的革命性变化[1][3][4] - 2025年开源成为行业分水岭 此前最好基础模型集中在美国头部公司 随后通义千问Qwen和DeepSeek实现开源[3] - OpenAI CEO承认在开源问题上站在历史错误一边 印证开源模式的重要性[3] 资源开放模式 - 模型权重开放本质是数据资源和计算资源的开放 可避免重复消耗计算资源[4] - 开放数据和计算资源是推动AI发展的必需环节 规模千倍万倍增加带来天翻地覆的变化[1][4] - 太空成为重要资源领域 人工智能不应缺失太空应用 将出现第四种"计算卫星"[4] 太空AI应用突破 - 之江实验室将12颗卫星同时送上太空 首次将8B参数完整大模型部署至太空[5] - 星座系统实现太空任意位置数据处理能力 命名为"三体计算星座"向全球开放[5] - 太空AI算力为深空探索奠定基础 太阳轨道数据传输受限 必须依靠太空AI处理能力[5] - 火星探索需要计算和AI陪伴 是未来10-20年最激动人心的方向[5]
2025外滩大会:从数据驱动走向“经验时代” AI竞争进入新阶段
环球网资讯· 2025-09-11 16:39
AI发展范式转变 - 人工智能正从数据驱动向体验驱动范式转变 图灵奖得主理查德·萨顿提出"经验时代"概念 标志着AI进入新阶段[2] - 规模定律仍主导AI发展轨迹 大模型"规模定律"持续有效 推理模型塑造"推理规模定律"新曲线[4] - 2025年美国主要科技公司AI相关资本开支预计超3000亿美元 AI数据中心产业链经历大规模建设热潮[4] 智能体经济与开放生态 - 人类进入"智能体群"时代 数量庞大的智能体间交互执行任务 构成全新"智能体经济"[4] - 开放资源成为AI竞争关键变量 从代码开放扩展到数据与计算资源开放 开源成为行业前进不可或缺环节[4][7] - 阿里云创始人王坚强调 人工智能时代开源已不仅是代码开放 更是数据和计算资源的开放[7] 能源需求与技术瓶颈 - AI当前用电量占全球1.5% 根据人脑能耗类比 最终可能达到全球总电量20%以上 将产生巨大能源缺口[5] - 技术落地存在巨大鸿沟 具身智能面临高质量数据短缺和模型算法挑战 多模态数据融合与模态对齐仍是难点[6] - 核聚变被视作终极解决方案 1克核聚变燃料释放能量相当于8吨石油 可通过AI自主探索聚变堆设计[8] 伦理治理与组织变革 - 人工智能触及社会中枢神经系统 数字官僚体系扩张将决定权移交算法 需建立全球协作和自我修正机制[6][10] - AI时代企业需要新型管理模式 人员规模扩大会降低协作效率 需探索更高效的组织管理方式[6] - 历史学家赫拉利强调 任何重塑社会的系统不应"先上线再治理" 需保证快速而安全地运转[8] 前沿应用与未来展望 - 太空计算开启AI新前沿 之江实验室首次将12颗卫星同时发射 实现太空部署8B AI模型 卫星间完整互通互联[8] - 强化学习带领进入经验时代 但需持续学习和元学习技术释放全部潜力 "经验"指观察、行动和奖励三种信号传递[8] - 创新创业门槛大幅降低 AI工具可实现新创意 小组织爆发力越来越强 荒漠中终会长出参天大树[8]
王坚:开放始终是技术突破的关键变量
华尔街见闻· 2025-09-11 14:17
开放理念的演变 - 当前行业正经历从“代码开源”向“资源开源”的革命性转变,2025年开源成为AI竞争的关键变量 [2][4] - 开放理念是技术突破的关键变量,从互联网时代的代码开源到AI时代的资源开源,其重要性一脉相承 [3][6] - 开源概念在1998年4月被一批极客固化下来,并开创了互联网时代,Netscape浏览器的开源是那个时代的“分水岭” [6] AI开源的关键事件与影响 - 2025年1月31日,通义千问、DeepSeek等模型的开源引发行业震动 [5] - OpenAI创始人山姆·奥特曼在模型开源前夕表示“OpenAI站在了历史的错误一边”,这被视作一个历史性的选择 [5] - 2025年1月13日美国公布的AI出口管制令明确对“闭源”模型权重进行管制,但专门强调“开源”权重不在管制之列 [5] AI发展的理论基础与资源重要性 - AI发展存在两种重要方法:逻辑驱动的方法和受生物学神经元启发的方法,后者引入了“权重”概念 [7][8] - 图灵在1948年提出,受神经元启发的“连接”数量足够多时就会产生智能 [8] - 2012年人脸识别时代的开启以及2017年Transformer与Tokenization技术的突破,使得数据、模型与算力的规模呈指数级增长 [10] - 当规模达到一定程度后,资源变得至关重要,模型权重的开放本质上是数据资源和计算资源的开放 [11] 太空探索与AI计算的结合 - 2025年5月14日,12颗三体计算星座卫星成功发射,首次将完整的8B AI模型算力送上太空,并实现卫星间的互通互联 [13] - 该星座计划向全球开放每一颗卫星,长远目标是将卫星送至距离地球和太阳各1.5亿公里的太阳轨道拉格朗日L5点 [15] - 将AI和算力送入太空被视为人类真正走出地球、前往火星探索路上不可或缺的陪伴,是未来10到20年最激动人心的方向 [16] - “三体计算星座”旨在解决多主体协同问题,期望在开放资源的情况下,有无数主体共同完成星座并分享太空 [14]