Workflow
Whisper
icon
搜索文档
赛道Hyper | 阿里Fun-ASR:语音AI新阶段演进方向
华尔街见闻· 2025-09-01 10:49
技术特点 - 新一代端到端语音识别大模型Fun-ASR具备更强的上下文感知和高精度转写能力 能听懂家装 畜牧等十大行业专业术语 并支持企业专属模型定制训练 [1] - 模型在转写时能结合前后文信息 避免多轮对话中出现语义漂移 例如在会议纪要场景中持续跟踪专有名词或特定语境 [6] - 在口音 噪声 跨领域专业词汇场景下提升鲁棒性 使系统在面对不确定性 干扰或异常情况时仍能保持稳定运行和可靠输出 [6] - 通过统一网络结构直接将语音映射为文本 降低系统复杂度 并为多轮语境理解奠定基础 [4] 应用场景 - 目前已进入会议字幕 同传 智能纪要 语音助手等场景 [8] - 在企业会议中转写不仅能记笔记 而是能形成结构化文档直接进入知识管理系统 在客服场景中识别结果可实时联动知识库帮助生成回答 [9] - 在教育和医疗领域 上下文理解力让转写结果更符合专业表达 减少误判 [9] - 语音识别正在向语音驱动的工作流过渡 成为数字生产力的一部分 而不仅是工具层的功能 [9] 战略定位 - 通过阿里云百炼平台服务B端客户 优先强化企业级生态 再逐步扩展到其他产品 [10][11] - 嵌入百炼平台意味着不仅是一个模型 更是平台化服务 定位为模型即基础设施 使语音识别成为企业云计算中的常备模块 [13] - 以云+企业服务为轴心 推动阿里云形成AI工具集 加速企业对阿里云平台的依赖 [14][15] - 在中文场景下的定制化与上下文感知可能成为其核心优势 与国际模型形成差异化竞争 [11] 行业趋势 - 语音AI交互方式正从听得懂迈向理解语境 反映语音AI整体格局的一个潜在转折点 [2] - 语音识别商业价值不再局限于单点应用 正逐步成为数字基础设施 类似OCR一旦准确率足够高就能无形融入各种系统 [12] - 未来语音AI可能与多模态模型融合 真正做到听 看 说 懂一体化 例如会议中同时识别语音与PPT内容生成更精准纪要 [13] - 语音识别逐渐成为人类不再意识到却无处不在的存在 未来AI交互很可能不是点击或输入而是自然对话 [20][21]
匿名社交,为何总活不过三年?
虎嗅APP· 2025-09-01 09:23
北美匿名社交行业现状 - 匿名社交在北美市场尚未出现巨头企业 行业历经十余年发展但缺乏长期成功案例 [4][6] - 行业呈现精细化细分趋势:部分依赖地理位置形成小型社区 部分侧重娱乐化互动如匿名问答和meme生成 主流社交平台开设匿名子版块 [6] - 全球互联网用户每周在社交媒体和短视频上平均消耗13小时48分钟 使用时长已超过传统电视 [9] 历史发展与挑战 - 早期代表产品Whisper(2012年成立)两年内月页面浏览量接近30亿 Secret(2013年成立)曾获八个国家App Store下载榜第一 [5] - 行业面临核心困境:网络暴力 消费诱导 信息泄露 审核制度难题 导致应用存活超过三年者屈指可数 [6] - 商业化模式受限:广告主对内容环境顾虑多 主要依赖会员订阅或虚拟礼物变现 缺乏多元化变现路径 [6] 典型产品案例 - Secret经历快速起落:2014年1月上线 一个月内获860万美元融资 总融资额3500万美元 估值达1亿美元 在8个国家下载榜第一 总下载量超1000万 但上线16个月即关闭 [21] - YikYak巅峰期估值达4亿美元 App Store排名高于Facebook和X 但因恶意内容和安全隐患于2017年关闭 [22] - NGL成为罕见成功案例:2023-2024年全球月活稳定在2500万 下载量超2亿次 总收入超过4000万美元 [37] 用户特征与行为 - 核心用户瞄准Z世代青少年 该群体社交接纳度高 表达欲望强 但自制力较低易导致群体暴力 [13] - 匿名社交满足情感释放需求:成为压力释放的性价比方式 用户通过匿名讨论心理健康 职场吐槽等敏感话题 [10][5] - 隐私矛盾突出:北美用户渴求安全保障 但2025年2月暗网市场出现4955份高价值数据买卖情报 美国发生634起数据泄露事件 [13][14] 商业模式创新 - NGL采用差异化变现策略:通过Instagram账号登录 提供付费服务破解匿名身份 按全球消费能力分层定价 美国周订阅6.99美元(约51元人民币) 印尼2.9万盾(约13.34元人民币) [37][40] - 依赖冲动消费和好奇心驱动:不关注用户留存 重点把握首次使用时的分享行为和付费转化 [39] - 第三方平台依赖模式:Sarahah YOLO LMK等依托Snapchat获得流量 但2018-2021年因欺凌事件和政策限制被批量关停 [25][28] 技术与发展趋势 - AI技术带来双重影响:既可提供AI陪伴类情绪价值产品 又能强化认证审核和身份保护系统 [43] - 新平衡点探索:削弱完全匿名性(如YikYak回归增加ID绑定) 加强内容审核(如Whisper雇佣人工团队筛查) [22][42] - 受众精准化运营:聚焦16-24岁高活跃度群体 但需应对44%青少年减少社交使用时长的趋势 [43] 市场机遇与前景 - 亚洲模式参考:通过情绪操控形成媒介依赖 强调用户质量维护和内容生产者的核心作用 [35] - 千亿级市场吸引力:尽管存在短命诅咒和市场混乱 但行业持续迭代证明需求存在 [33][41] - 新兴产品尝试:Monkey Whisper Ditty等应用仍在运营 2021年YikYak重启试图重返市场 [42]
匿名社交,为何总活不过三年?
虎嗅· 2025-08-28 19:48
北美匿名社交行业现状 - 北美尚未出现匿名社交巨头 [1] - 行业历经十余年发展形成细分赛道:地理位置社区、娱乐化互动功能、主流平台匿名子版块 [4][5] - 存活超过三年的应用屈指可数 [6] 历史发展轨迹 - 2012年Whisper月页面浏览量近30亿 [2] - 2013年Secret横空出世 登顶八国App Store下载榜 [2] - Secret累计融资3500万美元 估值达1亿美元 [30][31] - 2017年YikYak巅峰期估值达4亿美元 [35] - 2023年NGL全球下载量超2亿次 总收入超4000万美元 [56] 用户行为特征 - 全球互联网用户每周平均消耗13小时48分钟在社交媒体 [8] - 青少年群体为核心用户 表达欲望强烈且易形成情绪传播 [17] - 用户通过匿名讨论心理健康、职场吐槽、政治观点等敏感话题 [3] 商业化挑战 - 广告主对内容环境顾虑多 主要依赖会员订阅与虚拟礼物变现 [6] - NGL采用差异化定价策略:美国周订阅6.99美元 印尼2.9万印尼盾 [63] - 平台需平衡"过度审查"与"自由放任"的两难局面 [67] 典型产品案例 - Secret上线16个月即关闭 曾引发Facebook焦虑 [31] - Whisper采用人工内容筛查团队 2017年裁员20% [34] - YikYak因恶意内容与安全隐患于2017年关闭 [35] - Sarahah因助长欺凌行为下架 [43] - Gas上线半个月下载量达50万次 但收购9个月后即关闭 [46] 技术与发展趋势 - 2025年2月暗网市场出现4955份高价值数据泄露情报 [21] - 美国2025年发生634起数据泄露事件 [22] - AI技术可完善认证审核机制 并衍生AI陪伴类社交产品 [69] - 44%青少年受访者已减少社交媒体使用时长 [68] 市场机遇 - 匿名社交仍存在千亿级市场潜力 [70] - NGL月活稳定在2500万 证明短期消费市场存在 [56][61] - Monkey、Whisper、Ditty等应用仍在青少年群体中保有受众 [66]
北美匿名社交,为何总活不过三年?
创业邦· 2025-08-23 11:25
行业背景与现状 - 北美匿名社交领域尚未出现巨头企业,但历史可追溯至2012年Whisper等早期应用[5] - 匿名社交满足用户情感释放需求,尤其用于青少年心理话题、职场吐槽及政治观点表达[5][9] - 全球互联网用户每周在社交媒体耗时13小时48分钟,超过传统电视时长[9] - 行业细分趋势明显:地理位置社区、娱乐化功能(匿名问答/投票)、主流平台匿名子版块并存[7] 商业模式与挑战 - 商业化路径单一,主要依赖会员订阅或虚拟礼物变现,广告投放因内容环境顾虑受限[7] - 头部应用Secret曾获3500万美元融资,估值达1亿美元,但运营16个月即关闭[17] - 用户留存难题显著,例如Gas应用被Discord收购后9个月内因用户流失过快而关闭[25] - 北美市场冲动消费特征明显,NGL通过分级定价策略(如美国周订阅6.99美元)实现4000万美元总收入[33] 用户行为与风险 - 核心用户为Z世代青少年,易形成集群式情绪传播但自制力较低[13] - 匿名平台常伴随网络暴力、色情内容及信息泄露问题,2025年2月暗网数据交易达4,955份[13] - 隐私保护需求强烈,但技术漏洞仍存,例如Tea应用泄露用户敏感讨论记录[13] - 44%青少年已主动减少社交媒体使用时长,未成年人保护成为行业矛盾焦点[34] 技术创新与机遇 - AI技术可能重塑匿名社交:AI陪伴提供情绪价值,同时强化身份保护与审核机制[35] - 部分应用尝试削弱完全匿名性(如YikYak回归时绑定用户ID)以平衡安全与自由[34] - 北美市场短期消费潜力巨大,NGL等应用通过轻量化设计(Instagram接口)降低用户使用门槛[31] - 行业仍处于混乱但高增长阶段,新入局者持续涌现[35]
Anthropic天价赔款?大模型“盗版”的100000种花样
投中网· 2025-08-17 15:03
核心观点 - AI大模型训练数据来源的合法性成为行业焦点,法院裁决显示训练行为本身具有"变革性"可能不构成侵权,但数据获取方式若涉及盗版则难以豁免 [8][19] - AI公司采用多种游走法律边缘的数据获取方式,包括公开抓取、蓄意清洗版权信息、格式转换、使用影子图书馆及平台隐私协议等 [10][11][12][13][16][17] - 版权诉讼导致行业从激进转向保守,数据获取成本急剧上升,内容出版商议价权提升,行业竞争壁垒抬高 [19][20][21] 数据获取方式 公开抓取与清洗 - OpenAI构建WebText数据集时抓取Reddit数百万外部链接,间接纳入受版权保护内容 [11] - OpenAI系统性移除版权声明等关键信息,行为性质从"顺手牵羊"升级为"数据清洗" [12] 格式转换 - OpenAI利用Whisper转录超100万小时YouTube视频内容,绕过视听版权 [13] - Anthropic实施"物理世界洗白计划":采购数百万纸质书→拆解扫描→销毁原件→建库,试图规避侵权指控 [13][14] 影子图书馆 - Meta训练Llama模型被指控直接使用Library Genesis等盗版书库 [16] - Anthropic创始人曾下载含20万本书的盗版库Books3并知晓其性质 [16] 平台隐私协议 - 谷歌通过隐私政策将用户公开内容(Google Docs/Maps/Blogger)纳入AI训练数据池 [17] 行业影响 法律裁决 - 法院裁决训练行为具有"变革性"不构成直接侵权,但对数据来源合法性划出红线 [19] - Anthropic可能面临7500亿美元天价诉讼赔款 [9] 商业模式转变 - OpenAI从激进转向保守,斥资与美联社、金融时报等签署内容许可协议 [20] - 苹果坚持通过授权许可(如Shutterstock)和自有数据规避风险 [20] - 数据成本将明确体现在财报中,"数据免费"时代终结 [20][21] 竞争格局 - 内容出版商转变为产业链上游具有议价权的关键参与者 [21] - 科技巨头相比创业公司在数据供应链、法务合规方面优势扩大 [21]
天罡智算“算力生态超市”上线,开启算力采购新篇
搜狐财经· 2025-05-13 22:37
为什么有算力生态超市 - 算力已成为推动企业发展的核心动力 中国《"十四五"数字经济发展规划》提出构建全国一体化算力网络体系 沙利文预测2027年中国智能算力总规模将升至1.5亿元 大模型兴起是关键驱动力 [1] - 当前算力市场面临诸多挑战 包括算力成本高、获取难、分配不均 AI大厂存在"峰谷差" 裸金属交易资源错配、流程繁琐 市场交易以批发大宗为主 灵活性不足 响应速度慢 [1] - 天罡智算推出"算力生态超市" 以创新模式为企业提供一站式算力解决方案 助力企业数字化转型 [1] 算力生态超市的内涵 - 涵盖算力市场、AI市场、AI空间三大核心板块 精准对接各类企业多样化算力需求 践行算力普惠理念 满足大型企业、中小企业和开发者的不同需求 [3] - 创新模式有两大优势 一是零售式采购 用户可按用量、时长和性能需求便捷采购 包括租赁GPU算力、交易裸金属服务器、调用模型等 二是实时响应 借助智能调度系统秒级获取算力 [3][4] 算力市场 - 供应多种型号GPU 如H800、H100、RTX4090、昇腾910B 满足不同用户需求 [5] - 提供GPU算力定制租赁服务 AI大厂可定制长期高性能GPU算力套餐 实现削峰填谷 中小企业可租用短期弹性GPU算力 开发者能按小时或项目周期租赁 [5] - 为裸金属交易提供高效解决方案 汇聚裸金属服务器资源 如BMS 通过智能匹配解决资源错配问题 [5] AI市场 - 核心"商品"为模型与数据集 包括自然语言处理领域的Llama、智能语音领域的Whisper、计算机视觉领域的YOLO 各搭配相应数据集 适配不同AI场景 [7] - 吸引众多智算服务商入驻 资源整合能力强 大型科技企业、中小企业和科研团队都能便捷获取所需模型与数据集 [7] AI空间 - 提供行业报告与专业文章 深度剖析AI技术应用现状、市场规模、竞争格局和发展趋势 聚焦前沿突破 [9] - 为企业决策者推送行业深度分析简报 为AI从业者和科研人员举办技术研讨会、专家讲座 促进知识交流与技术创新 [9] 未来前景 - 将持续拓展算力资源 引入先进技术提升服务质量 加强行业合作 推出定制化方案和"算力生态超市"2.0版本 提供更具性价比的服务 [11] - 打造优质行业算力生态 推动各行业数字化转型 引领算力服务新发展 为企业发展与社会数字化进程筑牢算力根基 [11]
Qwen 3 发布,开源正成为中国大模型公司破局的「最优解」
Founder Park· 2025-04-29 20:33
阿里Qwen 3大模型发布 - Qwen3-235B-A22B评测成绩与DeepSeek R1、Grok-3、Gemini-2.5-Pro相当,支持混合推理和增强Agent能力 [1] - 全系列模型实现全参数(0.6B-235B)和全模态覆盖,成为HuggingFace最受欢迎开源模型,衍生模型数量突破10万超越Llama系列 [16][17][23] - 采用"思考模式/非思考模式"无缝切换技术,优化MCP工具调用成功率,官方明确从"训练模型"转向"训练Agent"的战略方向 [5][6][7] 中国开源模型全球竞争格局 - DeepSeek+Qwen形成开源"双子星"格局,取代Llama+Mistral成为全球主流开源生态 [1][13] - 开源策略突破地缘政治壁垒:模型权重和训练细节全公开,开发者可自托管定制,建立全球开发者社区信任 [10][12][15] - 两种差异化商业模式:DeepSeek通过技术突破提供低价API服务(成本降低80%),Qwen通过开源带动阿里云商业闭环 [19][20][21] MaaS模式创新 - 阿里云构建"模型-云-行业应用"飞轮:Qwen开源降低AI创业门槛,百炼平台提供MCP服务接入 [2][24] - 实际案例显示Claude+Qwen2.5组合成为创业公司主流方案,混合使用闭源与开源模型平衡成本能力 [25][27][30] - 行业专用模型在医疗、金融等高壁垒领域仍具优势,但需结合本地化服务和数据闭环 [14] AI创业者实践洞察 - 模型选择策略:ToB企业倾向Qwen32B微调(单卡可部署),ToC企业采用API组合(Gemini+DeepSeek) [27][45] - 四大核心挑战:长文本处理衰减(播客场景)、多模态情感理解(心理场景)、国产芯片适配(机器人场景)、并发稳定性(服务场景) [36][40][41] - 创业方法论验证:70%成功案例遵循"X+AI"而非"AI+X"模式,留存率取决于真实需求解决而非技术指标 [48][50] 开源模型技术趋势 - 能力差距持续存在但应用门槛降低:2025年开源模型已满足PMF验证需求,微调价值向窄领域迁移 [25][43] - 三大技术方向:混合推理架构(成本控制)、Agent工具调用(实用化)、多模态融合(场景适配) [5][7][23] - 社区驱动创新:Qwen生态含完整工具链(vLLM/SGLang),DeepSeek聚焦前沿技术(MoE/多模态) [32][49]
速递|Thinking Machines再添两名大将,团队超半数来自OpenAI/DeepMind等顶尖实验室
Z Potentials· 2025-04-09 11:08
核心观点 - 前OpenAI高管Mira Murati创立的新AI企业Thinking Machines Lab获得两位OpenAI前核心研究人员加盟 目标开发比现有系统更先进的AI工具 [1][3][4] 团队构成 - 首席顾问包括前OpenAI首席研究官Bob McGrew(2017年加入 2018年任研究副总裁 2024年9月离职)和前研究员Alec Radford(工作近十年 2023年底离职)[1][3] - 团队包含数十名来自OpenAI和Google DeepMind等顶级AI实验室的前员工 [3] - 公司由Mira Murati任CEO OpenAI联合创始人John Schulman任首席科学家 前OpenAI模型后期训练负责人Barret Zoph任首席技术官 [4] 融资进展 - 公司正与未具名风投机构洽谈 计划筹集超过1亿美元资金 [2] 技术背景 - Alec Radford是OpenAI关于生成式预训练变换模型(GPT)开创性论文的主要作者 参与开发GPT系列模型、语音识别模型Whisper和图像生成模型DALL-E [3] - Mira Murati在OpenAI任职期间主导开发ChatGPT、DALL-E及代码生成系统Codex(GitHub编程助手Copilot的早期技术基础)[4] 发展方向 - 公司研究议程和产品路线图尚未明确披露 [4] - 二月份声明中表示目标为开发工具让AI服务于人的独特需求 创建比现有系统更易理解、可定制且普遍能力更强的AI系统 [4]
谷歌对齐大模型与人脑信号!语言理解生成机制高度一致,成果登Nature子刊
量子位· 2025-03-23 19:12
研究背景与方法 - 谷歌引入统一计算框架,通过比较真实对话中的人脑活动与语音到文本LLM的内部嵌入,研究语言处理的神经基础[4] - 使用皮层电图记录参与者开放式真实对话中语音生成和理解过程的神经信号,累计100小时,同时从Whisper模型中提取声学、语音和单词级嵌入[4] - 开发编码模型将嵌入词线性映射到大脑活动,该模型能准确预测新对话中语言处理各层次的神经活动[4] 核心发现:语言处理机制对应关系 - 大脑语言理解顺序与LLM处理机制呈线性相关:首先处理语音(颞上回STG区域),几百毫秒后解码词义(布罗卡区IFG)[8][9] - 语言生成顺序与理解相反:发音前约500毫秒布罗卡区计划词义,发音前运动皮层MC计划发音,发音后STG监测语音[10][11][12] - 全脑分析显示,语音嵌入和语言嵌入可预测单词出现前后2秒内的神经反应,且生成与理解过程的编码峰值时间相反[13][14] 大模型与大脑处理机制的异同 - Whisper模型的内部表征与自然对话中的神经活动一致,尽管其设计未考虑大脑处理机制[15] - 大模型并行处理单词,人脑串行逐字处理,但两者反映类似统计规律[16] - 跨层非线性变换在LLMs和人脑语言区相似,但实现方式不同:Transformer同时处理数百单词,人脑按顺序循环处理[25] 研究意义与学术基础 - 语音到文本模型嵌入为理解自然对话的神经基础提供了连贯框架[15] - 此前研究证明自回归语言模型与人脑共享预测、惊讶和基于嵌入的上下文表征等计算原理[21] - 大模型嵌入空间几何图形捕捉的单词关系与人脑语言区表征一致[22]
OpenAI给所有模型做“身份卡”!一个页面读懂能力、速度、价格全指标
量子位· 2025-03-10 11:29
OpenAI模型身份卡系统 - 公司推出模型"身份卡"系统,包含能力、速度、支持模态、价格等关键信息,以图示+文本形式呈现[1][2][3] - 系统支持对比功能,可一次对比三个模型的各项指标差异[4] - 价格信息显示GPT-4o mini输入价格为$0.15/百万tokens,GPT-4o Realtime输入价格为$5/百万tokens[5] - 身份卡主要面向开发者,涵盖推理模型、GPT家族、绘图模型DALL·E、语音合成模型TTS等[7][8][9] 模型分类与定价 - 推理模型o1系列定价为输入$15/百万tokens,输出$60/百万tokens[13] - 提供用量限制分级,最高级别Tier 5支持10,000 RPM和30亿TPM[15] - GPT-4o mini Realtime模型支持文本和音频输入输出,定价为输入$0.6/百万tokens[5] - 部分模型如GPT-4o提供提示词示例功能[16] 个人用户模型选择指南 - AI博主整理ChatGPT功能状态表,显示GPT-4o在Pro账户无限制使用,免费账户有限制[20][22] - GPT-4.5仅限Pro账户使用,不支持Team和Plus账户[22] - Sora视频模型在Pro账户提供500次/月1080P生成,免费账户不可用[22] - 表格显示不同账户类型在附件支持、数据分析等功能上的差异[22] 未来发展方向 - 公司计划在GPT-5发布时将o3等功能整合到统一模型中[28] - 当前模型选择系统被比作"功能机时代",需要向"iPhone时刻"进化[25][26] - 公司CEO表示将简化模型选择流程,未来不再单独发布部分功能模型[27][28]