Workflow
Context
icon
搜索文档
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷
机器之心· 2025-07-05 13:53
技术突破 - MOSS-TTSD首次基于百万小时音频训练,成功破除AI播客的「恐怖谷」魔咒,实现超高拟人度的逼真对话语音合成[3][5] - 模型采用离散化语音序列建模方法,在约100万小时单说话人语音数据和40万小时对话语音数据上进行训练,具备中英双语语音合成能力[13] - 创新性开发XY-Tokenizer语音离散化编码器,采用8层RVQ音频Codec将比特率压缩至1kbps,支持最长960秒音频生成[15][16][22] 性能表现 - 在中文播客生成测试中,MOSS-TTSD与商业产品豆包在多个维度表现相当[8] - 说话人分离模型在AISHELL-4等测试集上DER指标显著优于开源及商用版本(9.7 vs 11.1/11.7)[28][29] - 在500条中英文双人对话测试集中,音色克隆保真度和语音韵律自然度大幅领先开源模型MoonCast[31][34] 应用场景 - 特别适合播客、影视配音、长篇访谈、数字人对话带货等需要长语音生成的场景[22] - 展示案例包括邓紫棋&周杰伦、潘长江&嘎子等音色克隆,以及原神游戏讨论等长播客生成[11] - 支持电商直播、体育解说等需要多人对话语音合成的商业应用场景[1][5] 技术架构 - 基于Qwen3-1.7B-base模型进行续训练,采用自回归加Delay Pattern进行语音token生成[13][14] - 数据清洗流水线通过说话人分离模型和DNSMOS评分(≥2.8)确保语音质量[24][27] - 两阶段多任务学习:第一阶段训练ASR和重建任务,第二阶段通过GAN损失补充细粒度声学信息[17][18][19][21]
Kimi“憋”出的深度研究,成色几何?
虎嗅· 2025-07-01 15:01
沉寂了小半年的 Kimi,最近悄悄开始内测"深度研究"功能。我上周申请了内测后,两三天就拿到了内测资格,然后开始正式使用。 说句主观感受的话,我觉得 Kimi 这次推出的深度研究功能,应该能排进行业内的 Top 3。 我一直属于 Deep Research 的重度用户,目前 ChatGPT Plus 每月提供的 20 次额度,根本不够用。平时写文章,我都会先通过 DeepResearch 来快速补充相 关的背景信息。 虽然 Deep Research 提供的信息并不可能 100% 准确和可靠,但总归能省去我不少查资料的时间。 就这几天的使用情况来看,Kimi 的深度研究功能,在很多问题上,最后生成报告的深度,超过了 ChatGPT。一份好的深度研究报告,倒也不一定非得是 万字长文,我觉得核心它需要搞定几件事: 1. 能够充分理解问题,并给出一份结构合理的框架。 2. 能找到真正有价值的信源,而不是无关紧要的信息。 3. 最终生成的内容,能够围绕核心问题展开。 这三个方面,Kimi 都做得很不错,给我一种代差感。当然,它也还有不少需要完善的地方,比如,目前不能导出为 PDF,而且生成的速度比较慢,我的 几个用例 ...
53万美金训练出顶级AI?揭秘MiniMax的「省钱」绝招
36氪· 2025-06-20 08:11
这几天,MiniMax 搞起了技术周,第一天就放出"王炸",开源了全球首个大规模混合架构推理模型 MiniMax-M1。据最新消息,M1 已经成为全球前二的 开源模型。 MiniMax 分别用最大生成长度的 40K 和 80K token,训练了两个版本的 MiniMax-M1 模型——MiniMax-M1-40k 和 MiniMax-M1-80k。MiniMax-M1-80k 在 复杂的数学和编码任务上优于 MiniMax-M1-40k。 据观察,MiniMax-M1 在全球科技领域引起了强烈的反响。产品不仅迅速占据海外主流媒体如 VentureBeat、Seekingalpha 等重要版面,更获得 Aran Komatsuzaki 等行业 KOL 的深度解读,同时在 TestTM 等国际社交平台引发讨论,形成多维度、跨圈层的传播矩阵。 (全球科技领域大V评论截图) 全球最长上下文,MiniMax-M1 是如何做到的? MiniMax-M1 基于之前的 MiniMax-Text-01 模型开发,总共包含 4560 亿个参数,459 亿个激活函数,并具备 32 层架构,其最大的亮点是支持目前业内最 高的 10 ...
复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
机器之心· 2025-06-15 12:40
AGI发展路径 - 大模型演进分为三幕:第一幕是模型规模化胜利,通过堆叠数据与参数实现通用任务跃升,代表模型包括ChatGPT、MOSS、Qwen [6] - 第二幕是后训练优化探索,通过强化学习、工具调用、思维链等技术提升复杂问题决策能力,代表成果包括GPT o1/o3、DeepSeek-R1、AnyGPT [6] - 第三幕Context Scaling聚焦情境理解,旨在让AI适应复杂多变情境并捕获"暗知识",实现模糊环境中的合理判断 [7][8] Context Scaling核心价值 - Context是多维动态信息结构,包含时空信息、参与者状态、文化规则等未明示的语境暗示 [9] - 关键能力是捕获"暗知识"(如社交暗示、文化差异判断),解决现有技术对模糊任务描述的局限性 [11] - 对AI安全发展至关重要,通过情境理解使AI做出符合人类价值观的自主判断(如规避回形针悖论) [12] 技术实现支柱 - 强交互性:要求AI具备社交智能、文化适应、动态调整能力,需从多模态协作中理解情绪状态和未说出口的期望 [14][15] - 具身性:智能体需具备虚拟或现实环境中的主体性,通过感知-行动闭环实现情境学习 [16] - 拟人化:需深度理解人类情感模式与文化敏感性,在参数固定情况下通过Context积累实现持续能力提升 [17] 技术协同与挑战 - Context Scaling与Test-Time Scaling形成互补,前者提升输入质量后者优化计算效率 [18] - 为强化学习提供新环境定义,将简单状态-动作循环升级为含丰富情境的交互空间 [20] - 面临三大技术挑战:Transformer架构重构、学习范式向交互式持续学习转变、复杂情境数据的生成方法创新 [23] 行业影响 - 将推理增强、多模态融合等技术统一于"情境理解"目标,可能成为通向AGI的关键路径 [22] - 代表企业包括OpenAI(o系列数学推理)、DeepSeek(GRPO强化学习突破)等探索不同扩展路径的机构 [2] - 复旦大学邱锡鹏教授提出该理论框架,指出行业需突破已有路径微调,解决"意识到但未表达"的核心问题 [22]
AI创业效率预警:“立即行动”
第一财经· 2025-06-04 15:16
AI行业发展趋势与机遇 - OpenAI CEO山姆·奥尔特曼认为2026年是AI驱动发现的关键年,AI将从辅助工具升级为帮助人类解决复杂问题的核心角色 [1] - 红杉中国提出AI Agent是当前AI落地的重要方式,企业需根据智能目标层级(如Leval 2 vs Leval 4)选择差异化路径 [1] - 具身智能概念受关注,无论硬件机器人或软件Agent均需具备信息获取与交付能力 [1] AI技术应用现状 - Revelio Labs数据显示ChatGPT发布后,招聘广告中"可被AI完成"的任务比例整体下降19%,技术岗位降幅达31% [2] - ChatGPT日活/月活比例已接近Reddit水平,应用场景覆盖广告文案创作、教育可视化、医疗诊断等领域 [2] - AI编程场景达到PMF最佳状态,OpenAI的Codex Agent可实现后台持续任务处理,成为工程师"搭档" [3] 行业竞争策略 - 红杉资本指出AI市场需求强劲,宏观经济因素为"杂音",创业者需抢占先机避免真空 [4] - 吴恩达AI Fund募资1.9亿美元,强调创业成功首要因素是执行速度,技术理解力比传统商业技能更稀缺 [5][6] - 实验成本降低使企业可快速试错修正,技术快速演进要求团队具备方向直觉判断力 [5][6] Agent领域发展格局 - 中美大厂Agent发展路径分化:北美云厂商侧重模型部署,国内沿用流量逻辑推通用Agent产品 [7] - OpenAI与Anthropic领跑LLM竞争,Coding+Agentic AI被视为AGI时代的超级应用机会 [7] - 长上下文技术突破将引爆Agent应用,2030年前或出现多家10万亿美元市值公司 [7] 企业融资与国际化 - AI Agent领域融资情绪乐观,投资人看重创始人对技术趋势的洞察力及团队执行力 [8] - 国际化公司需构建海外架构(人力/品牌/合规),并通过全球人才协同提升竞争力 [8]
合合信息发布MCP服务,推动AI规模化应用
中国金融信息网· 2025-05-12 16:52
行业趋势 - 大模型及Agent技术快速发展,通过大模型调用外部工具成为AI应用开发新范式 [1] - 多Agent协同模式成为AI行业重要发展方向,MCP协议作为标准化交互语言解决AI集成工具"最后一公里"难题 [2] 技术突破 - MCP协议解决不同大模型调用结构和参数格式各异的问题,提升AI工具集成效率 [1] - 当前MCP技术探索多聚焦个人工具,对企业级复杂场景支持仍有提升空间 [2] 公司动态 - 合合信息旗下TextIn上线文档处理领域首批MCP Server服务,实现"一次开发,多模型通用"目标 [1] - TextIn MCP Server服务支持教育题库数据处理、RAG知识库建设、文档翻译与格式保留、RPA及Agent自动化处理等下游场景 [1] - 公司服务可帮助大模型在理解、生成、问答等场景高效利用文档数据 [1] - 公司服务支持企业客户及开发者,推动AI在教育、医疗、制造、金融等行业的规模化应用 [2] 市场表现 - 截至5月12日收盘,合合信息股价报241.68元,上涨2.93% [3]
HubSpot(HUBS) - 2025 Q1 - Earnings Call Transcript
2025-05-09 05:32
财务数据和关键指标变化 - Q1营收按固定汇率计算同比增长18%,总客户数增长19%至超25.8万,季度净增客户超1万 [7][8] - 平均订阅收入每位客户为1.1万美元,按固定汇率计算同比下降2%,按报告基础计算下降4% [27] - 净收入为9600万美元,即每股摊薄收益1.78美元,自由现金流为1.22亿美元,占营收的17% [29] - Q1运营利润率为14%,较去年同期下降1个百分点 [28] - 计算账单为7.67亿美元,按固定汇率计算同比增长18%,按报告基础计算增长20% [28] - 净收入留存率为102%,较上一季度下降2个百分点 [28] - 预计2025年全年净收入留存率将同比提高几个百分点 [28] - 预计2025年全年总报告营收在30.36 - 3.044亿美元之间,同比增长16% [32] - 预计2025年全年非GAAP运营利润在5.58 - 5.62亿美元之间,运营利润率为18% [32] - 预计2025年全年非GAAP摊薄每股净收入在9.29 - 9.37美元之间 [32] - 预计2025年资本支出占营收的比例约为5%,自由现金流约为5.7亿美元 [33] 各条业务线数据和关键指标变化 - 订阅收入同比增长16%,服务及其他收入按报告基础计算增长13% [26] - 国内营收同比增长16%,国际营收按固定汇率计算增长19%,按报告基础计算增长15%,占总营收的47% [26][27] - 超37%的ProPlus客户按ARR计算使用四个或更多中心,同比提高7个百分点 [9] - 大客户交易增长强劲,同比增长23% [10] - 合作伙伴成本销售在Q1增长41% [10] - 免费转付费转化率同比提高 [10] - 内容中心附加率在过去一年增长两倍,服务中心采用率因嵌入式AI而提高 [15] - CoPilot用户数量从Q4的27万增长至Q1的超66万 [15] - 客户代理采用率在三个月内增长一倍,服务超2500个客户,平均解决率超50%,部分达80% [15] - 服务中心使用客户代理的客户关闭工单速度比未使用的客户快39% [16] - 探矿代理公测,超2300个客户激活使用 [16] 各个市场数据和关键指标变化 未提及 公司战略和发展方向和行业竞争 - 公司战略基于平台整合、高端市场拓展和低端市场客户获取优势三个支柱 [8] - 公司将AI嵌入每个中心和平台的每个部分,通过战略收购加速路线图 [14] - 公司计划在6月将客户代理扩展到所有专业和企业客户的每个中心 [18] - 公司将采用基于席位和信用的方式对AI进行货币化 [20] - 公司在春季活动中推出超200个新功能,聚焦深度嵌入AI、推进多代理编排和提升高端市场可扩展性三个主题 [21] - 公司通过Agent.ai孵化AI代理生态系统,已吸引超170万用户和1.7万代理开发者 [25] 管理层对经营环境和未来前景的评论 - 宏观环境不确定性持续,公司业务未受重大影响,但客户对价值的关注度提高 [12][31] - 公司认为自身是企业在不确定时期的可靠选择,AI战略将成为长期增长驱动力 [13][21] - 公司董事会授权首次股票回购计划,金额高达5亿美元,显示对业务和增长机会的信心 [8] 其他重要信息 - 公司联合创始人Brian Halligan将从执行主席过渡为董事会普通成员,Laurie Norrington将担任董事会主席 [35][36] 总结问答环节所有的提问和回答 问题: 请更新Agent.ai的情况,以及多代理编排如何跨中心实现 - Agent.ai是公司的创新方向,目标是让公民开发者构建下一代代理,公司对其进展满意 [39] - 模型上下文协议(MCP)是一种开放标准,公司已推出MCP服务器支持公测,可让AI应用与HubSpot后端通过自然语言接口通信,同时公司也将成为MCP客户端,与第三方系统交互 [40][41] 问题: 如何理解修订后的业绩指引的季度进展,以及并购对运营支出的影响 - 业绩指引考虑了外汇波动的影响,未将Q1的超预期表现纳入全年展望,是出于对宏观不确定性的考虑 [45][46] - 并购对运营利润的影响非常小 [48] 问题: 通过agent.ai进入HubSpot的代理与公司自己构建的代理在客户体验上是否有差异,以及哪些垂直领域或客户类型对价值的关注度更高 - 公司的AI战略是将AI深度嵌入平台,构建核心代理为客户提供价值,同时也在探索Agent.ai的生态系统 [54][55] - 公司业务在各行业、各细分市场和各地区的需求模式未发生显著变化,客户基础广泛多样,业务结果具有韧性 [51][52] 问题: 获得额外HIPAA资质和合规后,哪些中端市场客户适合HubSpot,销售反馈的潜在客户类型有哪些 - 公司在各细分市场都有增长动力,为中端和高端市场客户提供易用、快速实现价值和统一数据的价值主张,得到客户认可 [58][59][60] 问题: 高端市场和低端市场在CoPilot或代理采用上是否有不同模式,以及企业和低端销售周期在4月的管道情况 - 销售管道在各细分市场保持健康,未出现显著变化,多中心交易和技术栈整合趋势持续推动管道增长 [63] - 客户对嵌入平台的AI感兴趣,是否采用AI取决于客户内部是否有人推动,公司在各细分市场都能为客户提供价值 [64][65] 问题: 如何考虑AI解决方案的定价,以及如何让客户更轻松地采用 - 公司的货币化哲学是先提供价值,再增加货币化手段,将客户代理纳入基于信用的系统,专业和企业客户可在订阅中获得一定额度的信用,使用时无需额外付费,增加使用量时可按需购买信用包 [69][70][71] - 信用消费将基于代理提供的价值,如客户代理基于AI对话数量,探矿代理基于预订会议数量 [72] 问题: 新席位定价模式一周年后,客户留存率和净收入留存率的稳定性如何 - 席位定价模式变化带来了良好的增长势头,客户席位升级趋势明显,预计大部分客户将在2025年底前完成迁移,净收入留存率有望同比提高几个百分点 [76][77][78] 问题: 客户代理扩展到服务中心之外的成功因素,以及是否有机会进入相邻类别 - 客户代理的采用情况良好,超2500个客户使用,平均解决率超50%,设置时间短,客户已在营销和销售环节使用,公司认为客户代理可在整个客户旅程中提供价值 [81][82][83] - 公司认为AI才刚刚起步,代理与数据结合的机会巨大,可在多个方面为客户增加价值 [83][84][85] 问题: HubSpot中代理的易用性如何,是否需要数据准备和编排工作 - 公司致力于让技术易于客户采用,代理需要数据、上下文和智能,公司可帮助客户统一数据,客户有数据后采用代理相对容易,客户代理在有完善知识库和支持票历史的情况下,设置时间只需15 - 30分钟 [89][90][92] 问题: 2025年升级的常态化情况,以及对净新增ARR增长的贡献与过去几年的比较 - 净收入留存率有望在2025年同比提高几个百分点,主要得益于客户美元留存率的稳定和席位扩展带来的升级增长,新席位定价模式下客户席位升级率同比上升 [96][97][98] 问题: 从哲学角度考虑,消费型定价在未来几年如何为收入增长做出贡献 - 公司对通过AI和其他形式的消费型模式推动营收增长感到兴奋,但目前还处于早期阶段,尚不清楚席位和消费型模式的平衡如何发展,将在学习过程中分享更多信息 [101][102] 问题: 客户净新增数量从9000 - 10000降至9000的原因,是季节性因素还是宏观不确定性导致 - 公司各客户规模的增长都很健康,专业和企业客户净新增情况良好,入门级客户由于定价和包装变化带来的大量新增客户基数较大,预计未来净新增数量将接近9000,同时预计未来几个季度平均订阅收入每位客户的增长基本持平 [104][105][106] 问题: 考虑到新的基于信用的定价和不确定性,公司在下半年对客户续约价格上涨的灵活性如何 - 净收入留存率的提高得益于健康的席位升级率和定价影响,客户从旧模式迁移到新席位定价模式进展顺利,预计全年将继续按计划进行 [109][110] 问题: 公司内部使用AI的情况,以及对运营支出增长的影响 - 公司在内部使用AI方面起步早,目前处于从实验和学习阶段向规模化阶段过渡,在支持、探矿、营销和产品开发等领域都取得了显著成效,提高了效率,同时也为客户分享最佳实践提供了经验 [113][114][119]
IAC(IAC) - 2025 Q1 - Earnings Call Transcript
2025-05-06 21:32
IAC (IAC) Q1 2025 Earnings Call May 06, 2025 08:30 AM ET Company Participants Christopher Halpin - Executive VP, CFO & COOJason Helfstein - Managing Director - Head of Internet ResearchNeil Vogel - CEO, Dotdash MeredithJames Heaney - SVP - Equity ResearchCory Carpenter - Internet Equity ResearchJustin Patterson - Managing DirectorTom Champion - Director & Senior Research AanalystRobert Zeller - Equity Research AssociateLuke Meindl - Equity Research AssociateYgal Arounian - Director - Internet Equity Researc ...
真·开源MCP平台来了!ACI.dev能一站直连600+工具,让你的智能体秒变全能王!
机器之心· 2025-04-30 14:00
核心观点 - ACI_dev 开源了 Unified MCP Server 实现自然语言驱动的智能体工具自动编排调用 支持600+工具集成 实现从意图到动作的一步闭环 [1][3][7][10] - 该平台通过两个通用meta函数(ACI_SEARCH_FUNCTIONS和ACI_EXECUTE_FUNCTION)简化工具调用流程 无需硬编码或预定义接口 [11][12][15] - 具备动态工具发现 多租户认证 语义相似度排序等核心功能 显著提升智能体执行效率 [3][13][14] - 采用Apache 2_0开源协议 旨在推动MCP标准普及 构建开放智能体生态基础设施 [19][20][22] 技术架构 - 提供意图感知型访问权限(intent-aware access) 支持自然语言权限控制 [3][15] - 内置600+工具集成 涵盖Hacker News Tavily Gmail等常用平台 [5][8] - 通过语义相似度智能排序返回最相关工具 优化执行路径 [13] - 支持Python SDK调用 简化开发流程 [11] 应用场景 - 演示案例:智能体自动完成Hacker News热榜抓取 信息检索 邮件发送全流程 [5] - 典型任务:论文搜索 GitHub项目链接获取 Zoom会议安排等复合操作 [16] - 适用于需要跨多工具协作的自动化场景 消除OAuth和接口集成负担 [17] 生态战略 - 定位为MCP协议参考实现 填补多租户 精细权限等协议缺口 [22] - 开源模式允许自由定制部署 支持安全审计和私有化部署 [20][22] - 社区协作计划包括工具建议 Issue反馈 Discord交流等互动方式 [22] - 目标从600个工具扩展到6000个 构建开放智能体生态基础设施 [22]
李彦宏说的「MCP」,还有人不知道吗?
36氪· 2025-04-28 17:44
以下文章来源于智能涌现 ,作者邓咏仪 智能涌现 . 文 | 邓咏仪 编辑 | 苏建勋 来源| 智能涌现(ID: AIEmergence) 封面来源 | AI生成 大模型的风,如今又刮到了一个新名词上:MCP。 AI圈中不缺新鲜事,但这次不一样,互联网仿佛又回到了十多年前的春天。 "现在,基于MCP开发智能体,就像2010年开发移动APP。" 4月25日,百度 董事长李彦宏在百度Create大会上说到。 如果还没有听过MCP,但你肯定听过上一个热词:Agent(智能体)。2025年初,中国初创公司Manus的爆火,把这个名词瞬间推到了大众面前。 "真·能干活的AI",是Agent爆火的关键。在这之前,大模型可以答疑解惑,但它只是一个简单的对话窗口,依赖于模型接受过的训练,大模型内的数据往 往不是最新的,如果只有大模型本体,调用外部工具,要经历非常繁琐的过程。 MCP这个概念,就和Agent密不可分。 MCP是Agent愿景得以实现的的重要路径——大模型可以自由地调用支持MCP协议的外部工具,完成更具体的任 务。 现在,包括高德地图、微信读书在内的应用,就已经纷纷推出官方的MCP Server(服务器),这意味着 ...