MiniMax Speech 2.6
搜索文档
黄仁勋投了家复刻马斯克声音的AI公司
搜狐财经· 2025-11-03 12:14
公司融资与产品发布 - Cartesia公司完成1亿美元B轮融资,投资方包括英伟达[1][6] - 公司于3月完成6400万美元A轮融资,并发布支持语音克隆与风格迁移的Sonic-2.0模型[6] - 公司成立第二年即获得种子轮融资,并推出首款语音模型Sonic[6] 核心技术特点 - Sonic-3语音模型基于状态空间模型构建,与传统Transformer架构不同,能持续感知上下文,响应更自然[8] - 模型延迟仅90毫秒,端到端响应时间为190毫秒,是当前最快的语音生成系统之一[8] - 模型能更准确捕捉语言中的情绪波动、笑声、语气起伏等微妙情感变化[8] 创始团队背景 - 公司创始团队核心成员清一色来自斯坦福AI实验室,为学术派班底[3] - 首席执行官Karan Goel为斯坦福AI Lab的印度天才少年,在状态空间模型领域已有研究[2][11] - 首席科学家兼联合创始人Albert Gu为华裔,是Mamba架构的共同发明人之一[4] 行业发展动态 - MiniMax公司发布语音模型MiniMax Speech 2.6,响应延迟压缩到250毫秒以内,支持40多种语言和所有口音[14][16] - 语音模型商业化变现在大模型领域表现突出[16]
黄仁勋投了家复刻马斯克声音的AI公司
量子位· 2025-11-03 11:12
公司概况与融资进展 - 语音AI公司Cartesia发布新一代语音模型Sonic-3,其生成的语音与真人声音高度相似[1][2][14] - 公司完成1亿美元的B轮融资,投资方包括英伟达、Kleiner Perkins、Index Ventures和Lightspeed[3][13] - 公司在成立第二年获得种子轮融资,并于今年3月完成6400万美元的A轮融资,产品迭代与融资节奏迅速[11][12][13] 核心技术优势 - Sonic-3模型基于状态空间模型构建,与传统Transformer架构不同,SSM能持续感知上下文和对话氛围,无需反复遍历历史对话,使回应更自然[15][16][17] - 模型在响应速度上表现突出,延迟仅90毫秒,端到端响应时间为190毫秒,是当前最快的语音生成系统之一[17] - 模型能精准捕捉语言中的情绪波动、笑声、语气起伏等微妙情感变化,生成带情感的高质量语音[14][15] 创始团队背景 - 公司创始团队核心成员清一色来自斯坦福AI实验室,为学术派班底[5][7] - 首席执行官Karan Goel为印度天才少年,本科就读于印度理工学院德里分校,硕士毕业于卡内基梅隆大学,并在斯坦福AI实验室师从AI教父Chris Ré[5][20][21][22][24] - 首席科学家兼联合创始人Albert Gu是一名华裔,是Mamba架构的共同发明人之一[8] 行业发展动态 - 国内公司MiniMax同日发布语音模型MiniMax Speech 2.6,响应延迟压缩到250毫秒以内,支持40多种语言及所有口音[30][31] - 语音模型在大模型领域的商业化变现被认为是一枝独秀[34]
【产业互联网周报】 “十五五”规划建议:全面实施“人工智能+”行动,抢占人工智能产业应用制高点;黄仁勋GTC大会最新演讲勾勒AI蓝图;退出中国市场?SA...
钛媒体APP· 2025-11-03 10:12
大模型与生成式AI技术进展 - 智源发布多模态世界大模型悟界·Emu3.5,通过自回归方式实现多模态序列的“Next-State Prediction”,获得可泛化的世界建模能力,能实现跨场景具身操作、泛化动作规划与复杂交互 [2] - 美团LongCat团队发布并开源LongCat-Video视频生成模型,通过“二阶段粗到精生成+块稀疏注意力+模型蒸馏”三重优化,视频推理速度提升至10.1倍 [6][7] - 火山引擎上线豆包视频生成模型1.0 pro fast,生成速度最高提升约3倍,价格直降72% [10] - MiniMax发布海螺2.3视频生成模型,在动态表现力、风格化呈现及人物表演细腻度方面较上一代提升,并将海螺Video Agent迭代为支持全模态创作的Media Agent [15] - OpenAI推出由GPT-5驱动的自主网络安全研究代理Aardvark [29] AI平台与开发生态 - 零一万物联合开源中国发布Open AgentKit平台,该平台为开发者提供一站式开源解决方案,通过Framework、Runtime、Builder和Studio四大核心模块覆盖AI Agent全开发周期 [3] - 探迹科技推出针对AI数字员工打造的大模型智能体平台,AI数字员工具备类人思考、自主执行等特征,覆盖B2B、B2C核心业务场景,已与华为、小米、vivo等头部硬件厂商达成合作 [17] - 全球人工智能平台MAI推出旗舰产品“营销AI Agent”,可自主管理与优化效果营销,已帮助一些客户提升超过40%销售额,并每月管理数百万美元的谷歌广告支出 [34] - 前字节剪映、火山AI产品负责人创业项目“极致上下文”科技获硅谷美元基金与BV百度风投数百万美元投资,早期目标为打造面向营销场景的多模态Agent [36] 量子计算与前沿技术应用 - 玻色量子中标招商银行量子计算采购项目“天秤AI”,将基于自研的1000量子比特相干光量子计算机真机,为招行提供量子组合优化算法方案及量子真机算力服务 [4] - 一目科技在IROS展示自主研发的仿生视触觉传感器,传感器厚度仅为行业同类产品的一半,可同步“感受”物体软硬、表面纹理及滑动趋势,使机器人能完成精细操作 [11] - 全球首款进入课堂教学场景的全尺寸仿生机器人在合肥市师范附属小学正式“开讲”,身高1.4米的机器人“小安”作为助教参与科学教育课 [12] - 深圳鹏脑科技完成数千万元天使轮融资,资金将重点用于脑机接口技术的深化研发与产品迭代升级 [31] 企业合作与行业解决方案 - 汉得信息在电话会议中表示,今年计划努力完成3亿元AI相关收入,订单规模争取达到4-5亿元,明年希望实现规模翻倍,将AI收入目标设定在5-6亿元 [5] - 钉钉发布“1+4+N”矿业AI解决方案,钉钉大制造与矿业总经理表示近50%的中国五百强涉矿企业正在使用钉钉 [9] - 里伍铜业与华为签署框架合作协议,双方将在数字化基础设施、数智平台、智慧矿山大模型等方向深度合作,利用AI和5G技术推动高原地下铜矿的智能化转型 [13] - 中国科学院香港创新研究院与华为达成合作,联合推出新一代医疗AI大模型CARES 3.0,该模型在华为AI算力集群平台上训练完成,覆盖12+原生多模态医学数据集,能理解CT、MRI等影像并完成智能诊断 [14] 基础设施与安全 - 盛邦安全发布200G高速链路加密网关产品,整机加解密能力高达200Gbps以上,加密时延低于3微秒,经检测整机加解密吞吐能力达200Gbps,时延性能较现存纪录提升300倍,可应用于国家“东数西算”、智算中心等场景 [8] - 钉钉AI录音卡片DingTalk A1青春版正式上市,售价499元,依托钉钉AI听记和AI大模型能力,用户可实现语音内容记录、转写、总结分析并与钉钉工作流程打通 [20] - 黑石支持的数据中心平台AirTrunk与沙特人工智能公司达成战略合作,将在沙特投资约30亿美元建设数据中心园区 [27] - 国家发改委表示将以算力基础设施规模化、集约化、绿色化发展为重点,鼓励小、散、低效的存量算力设施向集约化、高效率转变 [50] 资本市场与融资并购 - 人形机器人研发制造企业松延动力完成近3亿元Pre-B轮融资,由方广资本领投,其旗下人形机器人“Bumi 小布米”定价9998元,10月23日晚一小时内订单突破100台,2天内首批500台售罄 [33] - 蚂蚁集团入股AI硬件研发商艾德未来智能,安徽艾德未来智能科技有限公司发生工商变更,新增蚂蚁集团旗下公司为股东,注册资本由约2512万人民币增至约2809万人民币 [32] - 英伟达计划向AI初创公司Poolside投资高达10亿美元,该交易将使Poolside估值飙升至原来的四倍,其正以120亿美元估值融资20亿美元进行谈判 [40] - 中金智算(安徽)科创投资基金合伙企业成立,出资额10亿人民币,经营范围为私募股权投资基金管理、创业投资基金管理服务 [38][39] 政策与行业趋势 - 山东省通信管理局等部门印发专项规划,提出到2030年底实现山东省低空通信网络全城全域连续覆盖和载人无人机航路全场景互联互通,到2035年底构建“空天地一体、通感算智融合”的低空通信网络数字基础设施 [41][42] - 上交所理事长邱勇表示,将支持人工智能、商业航天、低空经济等更多前沿科技领域适用第五套标准,支持具有参与全球竞争潜力的硬科技企业上市 [43] - “十五五”规划建议指出,将全面实施“人工智能+”行动,以人工智能引领科研范式变革,加强人工智能同产业发展相结合,抢占人工智能产业应用制高点 [46] - 上海市通信管理局等部门发布通知,开展城域“毫秒用算”专项行动,力争到2027年基本形成全域覆盖、高效畅通的城域毫秒用算网络能力体系,实现算力应用毫秒可达(网络时延<10毫秒) [48] 海外动态与国际合作 - OpenAI为印度用户提供为期一年的免费ChatGPT Go服务,该服务年费为399卢比(不到5美元) [21][22] - 英伟达GTC大会公布多项进展,包括与甲骨文为美国能源部建造最大AI超算Solstice系统,配备10万块英伟达Blackwell GPU;与CrowdStrike在AI网络安全模型方面合作;与Palantir整合GPU加速计算能力到其AI平台 [23] - 富士康董事会批准一项投资计划,将花费高达13.7亿美元用于人工智能计算集群和超级计算中心采购设备,投资将在2025年12月至2026年12月期间进行 [24] - 亚马逊宣布计划裁减约1.4万名公司职员,以精简运营、加快人工智能部署,自2022年以来亚马逊已累计裁员超过2.7万人 [28]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-11-01 10:33
芯片领域 - 英伟达推出Vera Rubin芯片[3] - 高通发布新AI推理方案[3] 模型进展 - OpenAI发布安全分类模型[3] - Cursor推出自研Composer模型[3] - Thinking Machines研究同策略蒸馏技术[3] - 英伟达开发OmniVinci模型[3] - MiniMax发布M2模型[3] - 北京智源推出悟界·Emu3.5模型[3] - OpenFold Consortium发布OpenFold3模型[3] 应用创新 - Sora推出角色客串功能[3] - MiniMax发布MiniMax Speech 2.6应用[3] - Soul AI Lab推出SoulX-Podcast应用[3] - Adobe发布Firefly Image 5应用[3] - 腾讯混元推出交互式AI播客应用[3] - PayPal将数字钱包嵌入AI应用[3] - Windsurf等应用接入中国大模型[3] - xAI推出Grokipedia应用[4] - Anthropic发布Claude for Excel应用[4] - 特斯拉开发世界模拟器应用[4] - 美团推出LongCat-Video应用[4] - 火山引擎发布豆包视频模型应用[4] - 昆仑万维推出网页复刻应用[4] - xAI发布新AI虚拟女友应用[4] - OpenAI推出公司知识应用并进入AI音乐赛道[4] - 腾讯发布ima 2.0应用[4] - 阿里推出夸克AI眼镜应用[4] 科技前沿 - 1X Technologies推出NEO家用机器人[4] - Hugging Face发布LeRobot v0.4.0[4] - Merge Labs开发超声波脑机接口[4] - Neuralink推出PRIMA人工视觉技术[4] 资本动态 - OpenAI有上市计划并进行资本结构重组[4] - OpenAI收购SAI公司[4] 行业观点 - Anthropic提出AI内省迹象观点[4] - 田渊栋提出AI顿悟观点[4] - Yoshua Bengio提出AGI新定义[4] - OpenAI公开技术路线图并关注心理健康数据使用[4] - 硅谷出现AI高强度工作趋势[4] - DeepMind提出DiscoRL算法观点[4] - ChatGPT采用聊天诱饵策略[4] - AWS提出对开发者未来的展望[4] 行业事件 - 日本呼吁AI版权保护[4] - Yoshua Bengio研究获得百万引用[4]
腾讯研究院AI速递 20251031
腾讯研究院· 2025-10-31 00:06
OpenAI技术进展与战略 - 开源gpt-oss-safeguard安全分类模型,包含120B和20B版本,采用Apache 2.0许可证,无需重新训练即可直接理解策略文档进行内容分类 [1] - 该模型在内容审核评估集和ToxicChat数据集上表现超越GPT-5-thinking,达到行业最佳性价比 [1] - OpenAI内部Safety Reasoner原型技术已用于图像生成和Sora 2等产品,安全推理算力消耗占比高达16% [1] - OpenAI计划最早于2026年下半年提交上市申请,2027年挂牌,拟通过IPO募集至少600亿美元,估值或高达1万亿美元 [6] - 架构重组后非营利组织持有新组建的OpenAI集团26%股权,微软获得额外2500亿美元Azure采购合同,技术使用权延长至2032年 [6] AI开发工具与平台更新 - Cursor发布2.0版本,推出自研编码模型Composer,生成速度达每秒250个token,是同类前沿系统的4倍 [2] - Composer模型采用混合专家架构,通过强化学习针对软件工程优化,在Cursor Bench评测中达到前沿水平 [2] - 新版界面支持多智能体并行协作,基于git worktree或远程机器实现不同模型同时处理任务,并增加原生浏览器工具 [2] - Sora推出角色客串功能,可保持非人类角色一致性,并支持从生成视频中提取虚拟角色实现自循环 [2] - Sora新增视频拼接功能和社区排行榜,并在美国、加拿大、日本和韩国四国限时取消邀请码限制直接开放注册 [2] 语音与多模态AI技术突破 - MiniMax Speech 2.6端到端延迟低于250毫秒,已成为LiveKit、Pipecat、Vapi等全球语音平台的底层技术引擎 [3] - 新版本支持多语言的网址、邮箱、电话等非标准文本格式直接转换,无需繁琐文本预处理 [3] - 提供Fluent LoRA功能,即使带口音或不流利的非母语录音也可在音色复刻时生成流利自然语音,支持40多种语种 [3] - 北京智源发布悟界·Emu3.5多模态世界大模型,基于34B稠密Transformer在超10万亿Token上预训练 [4] - 模型采用"下一状态预测"目标,在图像编辑任务上达到与Gemini-2.5-Flash-Image相当性能,并通过DiDA技术将图像推理速度提升近20倍 [4][5] 前沿科学研究与发现 - OpenFold Consortium发布OpenFold3预览版,基于超30万实验结构和1300万合成结构训练,可预测蛋白质与小分子配体、核酸等相互作用 [7] - 在单体RNA结构预测中性能匹敌AlphaFold3,所有组件采用Apache 2.0许可证允许商用,诺和诺德等公司已计划利用该模型加速研发 [7] - Anthropic研究发现Claude能察觉并报告被人为注入的概念,在最强模型上内省成功率达20% [8] - 研究通过追溯性注入概念篡改AI的"记忆",发现模型会基于伪造的内部状态为自己的"错误"进行辩护和杜撰理由 [8] - 前Meta FAIR负责人田渊栋发表Grokking研究,证明模型仅需O(M log M)样本即可实现泛化,远低于传统M²的需求 [8]