Workflow
全模态大模型
icon
搜索文档
万亿思考模型新速度!蚂蚁开源Ring-2.5-1T:IMO金牌水平,强;混合线性架构,快!
量子位· 2026-02-14 09:15
核心观点 - 蚂蚁集团发布全球首个开源混合线性架构万亿参数模型Ring-2.5-1T,在数学逻辑推理和长程自主执行能力上表现卓越,同时打破了深度思考、推理速度与显存开销的“不可能三角”,实现了高性能与高效率的平衡 [2][3][5] - 公司同期发布扩散语言模型LLaDA2.1和全模态大模型Ming-flash-omni-2.0,旨在构建统一的多模态能力底座,为开发者提供一站式解决方案 [33][36][39][40] - 通过一系列底层架构创新和训练方法,公司展示了其在AI领域顶尖的技术实力,并将技术能力转化为可复用的行业基础设施 [41][42][43] 模型性能与突破 - **数学逻辑推理能力**:Ring-2.5-1T在国际数学奥林匹克竞赛(IMO)中达到35分的金牌水平,在中国数学奥林匹克竞赛(CMO)中取得105分,远超国家集训队线 [3] - **长程任务执行能力**:模型在搜索、编码等复杂任务上能独当一面,并通过大规模全异步Agentic RL训练,从“做题家”转变为能下场干活的“实战派” [3][18] - **效率突破**:模型在生成长度超过32K时,将访存规模降至原来的十分之一以下,同时生成吞吐量暴涨了3倍多,解决了长窗口下显存爆炸的难题 [7][14][16] - **推理效率提升**:通过架构重构,模型激活参数量从510亿提升至630亿,但推理效率相比Ling 2.0仍实现大幅提升 [15] 技术架构创新 - **混合线性注意力架构**:采用1:7的MLA(Multi-Head Latent Attention)配Lightning Linear Attention的混搭设计,基于Ring-flash-linear-2.0技术路线演进 [9] - **增量训练与架构转换**:通过将部分GQA层转化为Lightning Linear Attention以提升长程推理吞吐量,并将剩余GQA层近似转换为MLA以极致压缩KV Cache [12] - **性能保障技术**:适配了QK Norm和Partial RoPE等特性,确保模型在架构改造后性能不降级 [13] - **密集奖励机制**:在思维训练中引入该机制,重点考察解题步骤的严谨性,大幅减少逻辑漏洞并提升高阶证明技巧 [18] 实战能力验证 - **抽象代数证明**:在群论证明题中,模型能熟练运用Cauchy定理,避开直觉陷阱,并引用Heisenberg群作为反例,逻辑推导严丝合缝 [20][21][24] - **系统级编程**:能用Rust语言从零手写高并发线程池,支持优雅关机、崩溃自动重启与任务恢复,代码在所有权管理与并发控制上表现老练 [25][27] - **复杂项目开发**:在Claude Code中自动开发出微型版操作系统,并持续完善功能,如实现bash命令界面 [28][31] 多模态模型发布 - **扩散语言模型LLaDA2.1**:采用非自回归并行解码技术,推理速度达到535 tokens/s,在特定编程任务上吞吐量达892 tokens/s,具备Token编辑与逆向推理能力 [33] - **全模态大模型Ming-flash-omni-2.0**:打通视觉、音频与文本的统一表征与生成,实现高响应频率下的实时感官交互与音画同步创作 [36][37] 行业战略与影响 - **构建可复用底座**:公司将发布的多种AI能力整合为统一底座,旨在为开发者提供统一的能力入口,降低多模态应用开发门槛 [39][40][43] - **未来技术方向**:团队将继续攻坚视频时序理解、复杂图像编辑和长音频实时生成等关键技术,以推动全模态AI的规模化落地 [41] - **行业地位**:公司的技术发布展现了其在全球AI领域第一梯队的实力,并将行业竞争门槛推向更高水平 [42][44]
今日财经要闻TOP10|2026年2月11日
新浪财经· 2026-02-11 20:31
航天与国防工业 - 中国载人登月工程取得重要阶段性突破,长征十号运载火箭与梦舟载人飞船的首次飞行试验(包括低空演示验证与最大动压逃逸飞行试验)取得成功,火箭一级箭体已安全溅落于预定海域 [1][2][4][9][10][11] - 乌克兰总统签署总统令,修改兵役规定,允许60岁以上人员在战时状态下通过特定程序以合同方式服役,合同期一年并可延长一年,同时调整了多项军队管理规则 [2][10] 人工智能与科技 - 蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0,该模型是业界首个全场景音频统一生成模型,可在单条音轨中同时生成语音、环境音效与音乐,并支持通过自然语言指令控制多种音频属性,其推理帧率低至3.1Hz,可实现分钟级长音频的实时高保真生成 [3][11] 地缘政治与国际关系 - 以色列总理内塔尼亚胡访美并与美国总统特朗普会晤,重点沟通伊朗弹道导弹问题 [4][12] - 美国众议院以395票赞成、2票反对的结果通过“保护台湾法案”,该法案寻求通过金融机制施压,主张在美国总统认定中国行动威胁台湾及美国利益时,将中国排除在G20、国际清算银行等多个重要国际金融组织之外,法案后续将提交参议院审议 [8][16] 大宗商品与金融市场 - 现货黄金价格突破每盎司5100美元关口,为1月30日以来首次,日内涨幅达1.54% [4][13] - A股市场三大指数涨跌不一,上证指数微涨0.09%,深成指跌0.35%,创业板指跌1.08%,市场成交额20010亿元,较上一交易日缩量1237亿元,超过3200只个股下跌 [5][14] - 盘面上,受产品涨价催化,小金属、油气开采、化学纤维、稀土永磁、染料、煤炭、钢铁、水泥等周期及原材料板块涨幅居前,固态电池概念股因国标发布预期而拉升 [5][14] - 另一方面,影视院线、短剧游戏、教育、旅游酒店、CPO(光模块)等板块跌幅居前,部分相关个股出现跌停 [5][14] 公司特定事件 - 天际股份公告,因涉嫌信息披露违法违规,公司于2026年2月11日收到中国证监会的立案告知书 [6][7][15]
蚂蚁集团开源全模态大模型Ming-flash-omni 2.0
财经网· 2026-02-11 12:05
公司技术发布 - 蚂蚁集团于2月11日开源发布了全模态大模型Ming-flash-omni2.0 [1] - 该模型在多项公开基准测试中表现突出,部分指标超越Gemini2.5Pro [1] - 模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力上表现突出 [1] 模型技术特性 - 该模型是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐 [1] - 用户使用自然语言指令即可对音色、语速、语调、音量、情绪与方言等进行精细控制 [1] - 模型在推理阶段实现了3.1Hz的极低推理帧率,实现了分钟级长音频的实时高保真生成 [1]
MINIMAX-WP(00100):Born-Global的稀缺全模态大模型公司
广发证券· 2026-02-10 17:26
投资评级与核心观点 - 报告给予公司“增持”评级,当前股价为515.00港元,合理价值为572.68港元 [2] - 报告核心观点认为该公司是稀缺的Pureplay全模态大模型公司,坚持“生而全球化”策略,在模型端打造了全模态大模型组合,产品端商业化进展趋前,具备向全球市场拓展的潜力 [1][8] 公司概况与业务 - 公司是全球最早研发大语言模型的公司之一,自创立之初便聚焦先进模型及AI原生产品开发,目前已形成以M2、Hailuo-02、Speech-02等为核心的全模态大模型组合 [14] - 公司主营产品包含多元化的C端原生产品和B端开放平台,C端产品包括智能Agent应用MiniMax、视频生成平台海螺AI、音频生成工具MiniMax语音、全模态交互平台Talkie/星野 [19][20] - 基于底层模型能力,公司产品已累计服务来自超200个国家及地区的超2亿个人用户,以及来自超100个国家及地区的超10万家企业及开发者 [8][14] - 公司管理层经验丰富,创始人闫俊杰博士曾任职商汤集团,团队在技术研发与企业运营方面具备多元专长 [15][17] 财务表现与预测 - 公司营收高速增长,从2023年的3百万美元增至2024年的31百万美元,同比增长782.2% [7] - 2025年第一季度至第三季度,公司营收进一步增长至53.44百万美元,同比增长175% [44] - 盈利预测显示,公司2025年至2027年营收预计分别为81百万美元、209百万美元、393百万美元,同比增长率分别为164.3%、159.2%、88.0% [7][8] - 公司毛利率持续改善,从2023年的亏损状态提升至2025年第一季度至第三季度的23% [49] - 尽管公司仍处于净亏损状态,但净亏损率呈收窄趋势 [52] 行业分析 - 大模型行业技术进步快,2025年中美主要厂商维持高频迭代,模型能力持续提升 [57] - 技术进步与成本下降共同驱动市场空间快速增长,全球大模型市场规模(基于模型收入口径)预计将从2024年的107亿美元增长至2029年的2065亿美元,年复合增长率达80.7% [69][76] - 行业格局未定,海外厂商领先,但国产模型正快速追赶,综合能力滞后海外头部模型约1-2个季度 [85] - 大模型公司可分为技术公司(Pureplay与Non-Pureplay)和应用公司,该公司属于典型的Pureplay大模型技术公司,按2024年收入计为全球第十大、国内第二大技术公司,全球市占率0.3% [78][80] 公司核心看点:模型能力 - 公司持续迭代模型,已形成覆盖文本、视频、音频、音乐、图像的全模态大模型组合 [92][93] - 文本模型M系列(M1, M2, M2.1)基于MoE架构,在编程、推理及Agent应用方面表现突出,M2.1在主流智能水平评测中位居全球前列 [93][95][97] - 视频生成模型Hailuo系列(如Hailuo 2.3)在视频质量与性价比上具备优势,其每分钟视频生成价格为2.8美元,低于部分头部模型 [109][111] - 语音生成模型Speech系列(如Speech 2.6 HD)在音频质量评测中位居全球前列,且定价具备竞争力,例如Speech 2.6 HD价格为每百万字符100美元,约为竞品ElevenLabs Multilingual v2的一半 [112][114] - 公司采取从单模态突破到全模态融合的差异化技术路线,并坚持模型算法创新与工程优化以提升效率 [115][117][119] 公司核心看点:产品与商业化 - 公司商业化进展趋前,形成了C端产品与B端开放平台双轮驱动的商业模式 [8][120] - C端AI原生产品增长迅速,收入占比从2023年的21.9%大幅提升至2025年第一季度至第三季度的71.1% [120][126] - 用户规模持续扩大,截至2025年9月30日,AI原生产品累计用户超2.12亿,开放平台用户数达13.2万 [124][131] - 付费用户高速增长,例如Talkie/星野付费用户量从2023年的11.97万增至2025年第一季度至第三季度的139.04万 [128][132] - 开放平台通过API调用、订阅套餐(如Coding Plan、语音/视频资源包)等多种模式变现,定价具备竞争力 [36][40][42] 公司核心看点:全球化战略 - 公司坚持“生而全球化”战略,产品上线即面向全球竞争 [8][135] - 海外收入快速增长,占比从2023年的19.2%提升至2025年第一季度至第三季度的73.1% [136][139] - 新加坡与美国是核心海外收入来源,2025年第一季度至第三季度合计收入占公司总收入的44.7% [136] - 核心出海产品表现亮眼,如Talkie曾达到百万级月活,海螺AI在全球增长榜上领先,开放平台海外收入从2024年同期的10万美元增长至2025年同期的780万美元 [135][136] - 公司于2026年1月在港交所上市,为全球研发、基础设施布局和市场拓展提供资金保障 [14][137]
MINIMAX-WP(00100):Born-Global 的稀缺全模态大模型公司
广发证券· 2026-02-10 16:34
投资评级与估值 - 投资评级为“增持” [2] - 当前股价为515.00港元,合理价值为572.68港元,对应约11.2%的潜在上涨空间 [2] - 基于2026年110倍市销率(PS)进行估值 [8] 核心观点与公司定位 - MiniMax是一家稀缺的Pureplay全模态大模型技术公司,坚持“生而全球化”(Born Global)战略 [1][8] - 公司自创立之初便聚焦先进模型与AI原生产品开发,已为全球超200个国家及地区的超2亿个人用户,以及超100个国家及地区的超10万家企业及开发者提供服务 [8][14] - 公司在模型端打造了以M2、Hailuo-02、Speech-02等为核心的全模态大模型组合,产品端已形成C端原生产品与B端开放平台双轮驱动的商业化模式 [8][19] 公司概况与业务 - 公司于2026年1月在港交所上市,总股本3.136亿股,流通股本2.325亿股,总市值约1615亿港元 [3] - 主营业务分为多元化C端原生产品和B端开放平台 [19] - C端产品矩阵包括:智能Agent应用“MiniMax”、视频生成平台“海螺AI”、音频生成工具“MiniMax语音”、全模态交互平台“Talkie/星野” [20] - B端“开放平台”通过API和云SDK为企业及开发者提供全模态模型能力,按使用量计费,截至2025年9月30日,每日处理数十亿以上token,是全球最大的开放平台之一 [20][33] 财务表现与预测 - 营收高速增长:2023年营收300万美元,2024年营收3100万美元(同比增长782.2%),2025年前三季度营收5344万美元(同比增长175%) [7][45] - 盈利预测:预计2025-2027年营收分别为8100万、2.09亿、3.93亿美元,同比增长164%、159%、88% [7][8] - 毛利率持续改善:从2023年亏损状态提升至2024年的12%,2025年前三季度进一步提升至23% [50] - 净亏损率逐步收窄:尽管净亏损额仍较大,但亏损率呈下降趋势,预计将迎来盈亏拐点 [53] - 销售成本中90%以上为与推理活动相关的云计算服务费用 [50] 模型能力与技术优势 - **大语言模型**:M系列模型(M1, M2, M2.1)基于MoE架构,具备强大的代码、推理和Agent应用能力,M2.1在多项智能评测中位居全球前列 [94][96][98] - **视频生成模型**:Hailuo系列(如Hailuo 2.3)视频质量处于全球前列,每分钟生成价格2.8美元,具备高性价比优势 [94][110] - **语音生成模型**:Speech系列(如Speech 2.6 HD)在音频质量评测中位居全球前列,定价为竞争对手ElevenLabs Multilingual v2的二分之一,性价比突出 [113][115] - 技术路线差异化:公司选择从单模态突破到全模态融合的路径,并坚持模型算法创新与工程优化,在效率与可扩展性上具备优势 [116][118][120] 产品商业化进展 - **用户与客户规模**:截至2025年9月30日,AI原生产品累计用户超2.12亿,开放平台用户数13.2万 [124] - **付费用户增长**:Talkie/星野付费用户从2023年的11.97万增至2025年前三季度的139.04万;海螺AI付费用户从2024年的6.48万增至31.11万;开放平台付费客户从2023年的约100家增至2025年前三季度的约2500家 [128] - **用户支出**:海螺AI每位付费客户平均支出从2024年的36美元增至2025年前三季度的56美元 [129] - 公司以产品为导向,较早通过高粘性C端产品(如Talkie)跑通订阅与增值付费模式,并正将能力外溢至B端市场,形成第二增长曲线 [133][134] 全球化战略 - 公司坚持Born Global,产品上线即面向全球竞争,海外收入占比快速提升,从2023年的19.2%增至2025年前三季度的73.1% [135][136][139] - 新加坡与美国是核心海外收入来源,2025年前三季度合计贡献2389.3万美元,占总收入的44.7% [136] - 2026年初完成港股IPO,募资将用于研发、产品开发及全球化扩张,为海外业务提供资金与品牌支持 [137] 行业分析 - **技术迭代**:大模型行业处于高速演进阶段,2025年中美主要厂商维持“月级”高频迭代节奏,模型能力持续提升 [58] - **市场空间**:技术进步与成本下降驱动市场快速增长,预计全球大模型市场规模(基于模型收入)将从2024年的107亿美元增至2029年的2065亿美元,年复合增长率达80.7% [70][77] - **市场格局**:海外厂商领先,国产模型(如DeepSeek、Qwen、智谱、MiniMax)正快速追赶,性能差距从过去的一年以上缩短至约1-2个季度 [86] - **竞争格局**:MiniMax按2024年收入计,是全球第十大、国内第二大、全球第四大Pureplay大模型技术公司,全球市占率0.3% [79][81]
F5 ADSP赋能智能汽车释放AI潜能
中国汽车报网· 2026-01-26 10:44
AI技术驱动汽车产业转型 - AI技术推动汽车产业向“软件定义、数据驱动”的智能化转型,行业生态正在重构[1] - “软件定义汽车”成为2026年智能汽车数字化转型的核心引擎,软件在汽车整体价值中占比已攀升至60%[6] - 自动驾驶与全模态大模型上车两大趋势,驱动汽车行业数据与算力需求爆发式增长[6] 行业核心趋势与需求 - 自动驾驶常态化:L3级自动驾驶已在多个城市试点,单车日均产生4至10TB数据,数据处理规模正从TB级迈向PB级,模型迭代周期从月级压缩至周级甚至天级[6] - 全模态大模型上车:对交互延迟提出严苛要求,需低于200ms[6] - 车路一体化加速:对V2X协同感知通信延迟要求严格控制在20ms以内,推动基础设施升级与数据传输优化[7] - 推理应用大爆发:行业焦点从算力、模型参数竞争转向2026年的模型落地应用关键阶段,AI技术正转化为可落地的实用功能[10] - 中国智能网联汽车渗透率已超过80%[10] F5公司及其ADSP平台解决方案 - F5推出全新应用交付与安全平台(ADSP),旨在应对AI时代混合多云架构挑战,助力企业降低复杂性并释放AI潜能[1] - ADSP平台集成负载均衡、智能流量调度、API和AI安全防护能力,可提供定制化智能出行解决方案[3] - 平台支持统一部署于公有云、边缘或本地环境,帮助车企实现从“单云依赖”到“多云多活”的转型,提升业务连续性[11] - ADSP平台六大核心价值:一体化整合交付与安全、全形态灵活部署、跨环境统一管理、深度分析赋能、可编程数据平面、全生命周期自动化[14] - ADSP采用API驱动架构,整合负载均衡、多云连接、安全防护及AI网关核心需求[14] 技术应用与性能提升案例 - 针对车企软件研发与安全需求,F5提供全生命周期自动化解决方案,简化流程并强化安全防护[6] - F5以TBLB智能推理网关、VELOS高性能硬件为核心,构建高效数据传输与算力调度体系,保障OTA升级流畅性及数据安全[6] - 国内某大型车企AI智算中心采用ADSP搭载的TBLB技术,搭配F5 R系列硬件及“N+M”架构,首token响应时间降低95.61%,GPU利用率提升至90%以上[14] - F5 BIG-IP Next for Kubernetes部署在英伟达DPU上,能为多租户集群提供高性能网络和安全性,通过将网络任务卸载到BlueField-3 DPU实现低延迟、高吞吐量数据流[14] F5汽车行业重点业务场景 - 公司解决方案聚焦四大场景:车联网、多云多活、智算中心和出海[17] - 车联网场景:通过增强网关为MQTT协议提供双向认证和协议优化,支持MQTT Over QUIC保障连接稳定性,利用CDN缓解OTA升级网络拥塞,并通过WAF保护升级过程[18] - 多云多活场景:ADSP平台助力多云统一管理、无缝跨云迁移,提高业务连续性[18] - 推动AI与物理安全融合,通过多模态数据处理和数据引力优化提升自动驾驶训练效率,并强化端到端安全防护[18] F5业务进展与未来规划 - 2025年,F5在华汽车业务规模增幅超过100%,客户覆盖国内头部车企及新势力车企[19] - F5是同行中首家为汽车行业单独组建专项团队的企业,已在全球组建汽车虚拟团队,中国团队成为全球团队的核心输入来源之一,形成“本地经验反哺全球”格局[19] - 2026年将重点推进AI技术在智能驾驶领域的落地赋能,与国内车企深度对接,探讨AI解决方案在智驾领域的深度应用,预计年内取得实质性进展[22] - 公司计划将汽车业务延伸至具身智能等前沿领域,依托中国领先优势开展研究,并向美国、日本等全球市场反向输出技术成果[22] - 2026年在华汽车业务将聚焦扩大资源投入、推进AI技术规模化应用、深耕前沿技术研发,巩固“数字化引擎”赋能者角色[23]
淘汰一大批!「史上最严」充电宝新规曝光:3C认证全面失效;李想:不会造手机,理想AI眼镜要来了;蔚来李斌喊出明年全年盈利目标!
雷峰网· 2025-11-26 08:52
充电宝新规与行业影响 - 工信部《移动电源安全技术规范》新国标预计12月公示 2026年6月实施 原有3C认证将全面失效[5] - 新规技术要求严苛 预计近七成现有产能因无法达标将被迫退出市场[5] - 新规设置半年缓冲期供企业清理库存 未售出旧标产品须在实施前完成销售或退出市场[6] 蔚来汽车业绩与战略 - 公司2025年第三季度净亏损34.805亿元人民币 同比收窄31.2% 综合毛利率13.9%创近三年新高[8] - 公司创始人李斌提出四季度盈利信心 并设明年全年盈利目标[8] - 公司计划明年推出三款大尺寸新车 并计划将自研辅助驾驶芯片开放给行业使用[9] 百度AI组织架构调整 - 公司新设基础模型研发部和应用模型研发部 分别由吴甜和贾磊负责 均向CEO李彦宏汇报[9] - 公司提升大模型研发部门管理层级 采取分进合击打法以加强人工智能核心优势[9] - 文心大模型5.0在LMArena竞技场取得文本榜全球并列第二 视觉理解榜国内第一的成绩[10] 人工智能行业动态 - 阿里巴巴26财年Q2财报显示AI需求旺盛 阿里云收入增长34% AI相关产品收入连续9个季度三位数同比增长[11] - 公司CEO吴泳铭表示AI服务器上架节奏严重跟不上订单增速 在手积压订单持续扩大 认为AI资源供不应求状态将至少持续三年[12] - 美国前总统特朗普签署行政令启动AI"创世纪计划" 定位为国家战略级别 旨在利用AI变革科学研究[35] 消费电子与智能手机 - 华为发布Mate 80系列 首发无网应急通信功能 最远连接距离13公里 起售价4699元[31] - 2025年10月国产新旗舰机激活设备数前三名为小米17 Pro Max(53.4万台)、小米17 Pro(52万台)和OPPO Find X9 Pro(46.0万台)[33] - 苹果公司证实裁撤部分销售团队 同时iPhone Air机型产量大幅削减 销量仅达最高预期三分之一[35][36] 芯片与算力市场 - 亚马逊宣布将最高投资500亿美元为AWS美国政府客户拓展AI及超算能力 计划新增近1.3吉瓦超算容量[37] - 谷歌向客户推销自研TPU芯片 Meta据悉正讨论斥资数十亿美元从2027年开始整合谷歌TPU[37][38] - 联想集团CFO表示为应对AI引发的内存芯片供应紧张 公司零部件库存囤积量比平时高出约50%[39] 汽车行业其他要闻 - 理想汽车创始人李想表示公司不会造手机 但将推出智能眼镜等生态化产品[15] - 极越汽车母公司上海集度汽车已向法院提交预重整申请并获受理 旨在引入新战略投资人[24][25] - 特斯拉声称荷兰监管机构RDW计划于2026年2月批准FSD在荷兰落地 但遭RDW澄清时间表能否实现仍需观察[40][41] 公司人事与融资动态 - 原华为天才少年彭志辉(稚晖君)当选上市公司上纬新材董事长[11] - 长安汽车调整海外业务负责人 由叶沛分管 公司前10月海外销量达52.3万辆 占总销量比重超22%[13][14] - 灵心巧手公司完成数亿元人民币A+轮融资 为8个月内第四轮融资 当前月订单量已突破千台[24]
哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA
机器之心· 2025-11-25 17:37
全模态大模型行业演进 - 人工智能正从“专才”走向“通才”,从“工具”走向“伙伴”,全模态大模型是实现更丰富理解与深度交互的关键 [2] - 当前行业共同挑战在于如何在一个模型中兼顾强大的多模态理解与高质量生成,并构建高效统一的模型架构与训练方案 [2] 哈工大深圳计算与智能研究院发布Uni-MoE-2.0-Omni - 公司在2023年“立知”大语言模型基础上,基于2024年5月提出的原创Uni-MoE架构,正式发布第二代全模态大模型Uni-MoE-2.0-Omni [2] - 该模型以大语言模型为核心,通过渐进式架构演进与训练优化,将稠密大语言模型拓展为混合专家架构驱动的全模态大模型 [3] - 模型实现了从“语言理解”到“多模态理解”,再到“理解与生成兼备”的跨越式升级 [3] 模型核心架构与技术 - 模型架构由统一模态编码、动态混合专家以及全模态生成器三大核心组件构成 [7] - **统一模态编码**:采用统一Token化策略,借助SigLIP编码器处理图像与视频,基于Whisper-Large-v3将30秒音频压缩为仅200个Token,并引入Omni-Modality 3D RoPE机制构建统一坐标系 [7] - **动态混合专家**:核心架构升级为新型Dynamic-Capacity MoE,支持根据Token难易程度动态分配算力,并引入路由专家、共享专家和空专家三类角色,配合路由梯度估计技术提升稳定性 [8] - **全模态生成器**:通过特殊控制Token将所有任务统一纳入语言模型语义空间,实现理解即生成;其Uni-MoE-TTS可实现两分钟以上语音回复,支持中英三种音色;引入任务感知的扩散模型驱动图像生成与编辑 [8] 训练策略与数据效率 - 团队设计了渐进式训练策略,依次推进跨模态对齐、专家预热、MoE微调与强化学习、生成式训练 [11] - 该策略能够以较少的数据量(75B Tokens),将稠密大语言模型高效扩展为全模态大模型 [11] - 提出以语言生成任务为锚点的多模态理解与生成联合训练方式,打破理解与生成之间的界限 [11] 模型性能评估 - 模型在85项基准测试上进行了评估,在76项可对比评测中,Uni-MoE-2.0-Omni超越Qwen2.5-Omni逾50项任务 [3] - 在35个任务上达到最佳性能,在50个评估任务上全面超越了使用1.2T Tokens训练的Qwen2.5-Omni [13] - 在8个视频评估基准和4个全模态理解基准上,较Qwen2.5-Omni提升7% [13] - 在关键基准测试中,Uni-MoE-2.0-Omni在WorldSense、StreamingBench (Omni)、OmniVideoBench、OmniBench上的平均得分达43.7,表现领先 [14] - 在全模态理解任务中,其平均得分达50.6,在多项子任务中超越对比模型 [14] - 在可控图像生成与低层级图像复原任务中,模型在多项指标上表现优异,例如在Canny-to-Image任务中FID为20.23,CLIP-S为28.58 [15] - 在多模态语音交互问答任务中,平均得分达64.27,超越对比模型 [16] 模型功能展示 - 具备视觉数学推理能力,可基于图表OCR结果进行推理 [18] - 具备图像推理生成能力,能根据季节等指令生成符合逻辑的图像 [20] - 具备人像图片修饰能力,可根据指令修改图片并保持主体不变 [25] - 具备图像质量修复能力,可处理雨、雾、雪、暗等低质量图片 [28] - 可作为多轮对话伙伴,连续响应用户意图 [30] 行业影响与开源 - Uni-MoE-2.0-Omni是一个架构先进、完全开源的全模态大模型,为社区提供了强有力的全模态基座 [33] - 该系列模型验证了将稠密大语言模型扩展为全模态模型的路径,实现了从“多模态理解”向“理解生成一体化”的跨越 [33] - 其代码、模型权重及数据清单的开源,将进一步推动通用多模态人工智能的研究与应用发展 [33]
国泰海通:MiniMax发布全模态AI“全家桶” M2登顶全球开源模型
智通财经网· 2025-11-11 19:58
公司技术发布 - 上海AI独角兽MiniMax发布覆盖文本、视频、语音、音乐的全模态大模型"全家桶" [1][2] - 发布四款重磅模型:文本大模型M2、视频生成模型Hailuo 2.3、语音模型Speech 2.6和音乐模型Music 2.0 [2] 文本大模型M2性能表现 - 文本大模型M2在权威测评Artificial Analysis榜单中斩获全球前五、开源第一,成为首个跻身全球第一梯队的中国开源大模型 [2] - M2以10B激活参数(总参230B)的轻量级架构实现顶级性能 [2] - M2综合推理成本低至0.53美元/百万Token,仅为Claude 4.5 Sonnet的8%,同时推理速度接近后者的两倍 [3] - 发布后5天内即在API平台OpenRouter的调用量跃居全球第四、国产第一,编程场景调用量位列全球第三 [3] 全模态产品矩阵技术细节 - Hailuo 2.3视频生成模型支持生成最长10秒的原生1080p高清视频,训练和推理效率相比前代提升约2.5倍 [4] - Speech 2.6语音模型将首包响应时间压减到250毫秒,达到语音赛道绝对头部水平 [4] - Music 2.0音乐模型能够生成结构完整、最长5分钟的歌曲 [4] - 公司坚持投入更高成本的完整注意力机制,以确保模型在长上下文、复杂逻辑推理等场景下的生成质量与稳定性 [4] 行业意义与商业化前景 - 此次发布标志着中国AI企业在全模态技术领域实现全面突破,为商业化落地打开新局面 [1] - M2在模型性能、推理速度与使用成本的"不可能三角"中实现了突破性平衡,为大规模商业化应用提供了坚实的技术基础 [2][3] - M2的市场表现验证了其在高性能与低成本之间的卓越平衡,为国产模型在全球范围内的商业化推广提供了成功范例 [3]
英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
36氪· 2025-11-07 18:48
公司产品发布 - 英伟达正式推出并开源其全模态大模型OmniVinci,该模型能同时精准解析视频和音频信号,特别擅长视觉和听觉信号的时序对齐 [1][2] - OmniVinci模型参数规模为90亿(9B),在多项多模态基准测试中性能超越同级别甚至更高级别的竞争对手 [1][5] - 模型训练数据效率极高,仅使用0.2T(2000亿)tokens的训练数据即达到顶尖水平,而其竞争对手数据集规模普遍在1.2T以上,训练效率是对手的6倍 [9] - 模型通过全对齐网络、时序嵌入分组和约束旋转时间编码等核心技术,实现了视觉和听觉信号的高精度时序对齐 [9] 产品性能优势 - 在视频理解任务中,结合音频进行显式多模态学习后,模型性能出现突破性进步,例如在VideoMME基准上,采用显式学习策略后得分从66.37提升至68.63 [8][9] - 音频的加入为视觉任务引入了新信息维度,使模型在无字幕视频理解等任务上提升显著,例如在无字幕的中长视频任务中,性能分别提升了7.89和6.67个百分点 [8][9] - 模型在视频内容理解、语音转录、机器人导航等场景中能提供高效支持,展现出卓越的多模态应用能力 [1][11] 行业竞争格局 - 开源大模型领域竞争激烈,中国大模型如DeepSeek和Qwen正强势统治开源基础模型领域,凭借卓越性能和快速迭代成为全球AI从业者的重要参照物 [1] - 英伟达作为AI硬件巨头亲自下场开源大模型,其入局传递了硬件厂商也要掌握模型定义权的清晰信号 [1][7] - 英伟达的开源模型策略被视作开源社区的友军而非对手,因为开源模型越多人使用会带动更多GPU需求,公司是开源模型的最大受益者 [18] 市场影响与生态 - OmniVinci的发布在开源社区引起巨大反响,在huggingface上已斩获一万多次下载量 [19] - 该模型是英伟达“软硬一体”生态的自然延伸,也是对AI开源生态的一次强力助推 [22] - 开源格局因此更加清晰,一方是以DeepSeek、Qwen为代表的中国开源力量,另一方是手握算力霸权的英伟达,通过技术标杆和生态孵化加速AI进程 [22]