Workflow
多模态大模型
icon
搜索文档
大模型学会拖进度条看视频了!阿里新研究让视频推理告别脑补,实现证据链思考 | ICLR 2026
量子位· 2026-01-29 16:27
文章核心观点 - 阿里巴巴未来生活实验室的研究团队指出,在视频推理任务中,简单地套用文本思维链(如“Let's think step by step”)效果不佳,甚至可能不如直接回答,其根本原因在于视频推理需要模型在视觉内容与文本逻辑之间反复穿梭验证,而纯文本思维链易导致模型产生“脑补”和幻觉 [1] - 研究团队提出,模型“思考”的效果取决于是否教会它“如何思考”,并为此推出了一套完整解决方案,包括高质量视频推理数据集ReWatch和能够像人类一样“回看”视频进行思考的SOTA模型ReWatch-R1 [1] 高质量视频推理数据集ReWatch - 为解决现有训练数据的三大痛点(视频描述粗糙、问答过于简单、思维链严重依赖文本常识而非视频内容),研究团队构建了ReWatch数据集,包含1万视频、17万问答对和13.5万思维链 [2] - 数据集具备三大核心优势:1) 高保真时序字幕(ReWatch-Caption),采用分层字幕生成方法为长视频生成带精确时间戳的详细事件描述;2) 高难度视频问答(ReWatch-QA),通过“摘要vs精读”对比生成策略和三层过滤机制,确保问题必须依赖视频细节解答;3) 视频接地的思维链(ReWatch-CoT),首创多智能体ReAct框架,模拟人类“回看、确认”行为,生成每一步都与视频内容紧密绑定的推理轨迹 [2] - 整个数据集的构建过程包含三个阶段:分层字幕生成、高难度问答对生成以及多智能体思维链合成,确保了数据的高质量和高难度 [4] 模型训练方法论:ReWatch-R1 - 研究团队采用SFT+RL的训练范式,并通过一个创新的奖励机制(带过程奖励的强化学习,GRPO with O&R Reward)来教会模型思考的精髓,该机制不再仅仅奖励“答对与否”,而是直接监督和奖励模型的中间推理过程,以有效抑制推理幻觉 [6] - 过程奖励(O&R Reward)的计算分为两部分:1) 观察奖励(Observation Reward),通过比对模型生成的观察结果与数据集中的高保真字幕,评估其真实性;2) 推理奖励(Reasoning Reward),评估模型推理中产生的“观察”结果能否作为唯一信息源推导出正确答案,以判断推理动作是否充分高效 [8] - 通过这种过程导向的奖励机制,模型学会了如何通过真实、有效的步骤进行思考,基于证据链进行推理 [8] 实验结果与关键洞察 - 实验结果表明,ReWatch-R1在五个主流视频推理基准上,平均性能显著超越了所有同量级的开源模型,取得了SOTA的成绩 [9] - 一个关键发现是:在监督微调(SFT)阶段,“思考模式”的性能始终无法超越“直接回答”模式,说明SFT只能教会模型思考的“形”;然而,经过RL阶段的训练后,“思考模式”的性能实现了惊人飞跃,最终大幅超越了“直接回答”模式,展现出最高的性能上限 [12] - 这证明了显式的、一步步的、有证据支撑的推理过程对于解决复杂视频任务至关重要,而强化学习是激发这种能力的关键 [12] 研究总结与贡献 - ReWatch-R1的工作为视频理解领域贡献了宝贵的思路和资源,通过创新的“智能体合成数据”方法解决了高质量视频推理数据稀缺的核心瓶颈,并通过“过程奖励”强化学习教会了模型如何基于视频证据进行“深度思考” [14] - 这项研究表明,让模型学会“如何思考”是通往更高阶视频智能的关键一步 [14]
金融赋能AGI创新:浦发银行携手阶跃星辰共绘智能未来新图景
中金在线· 2026-01-29 10:25
公司融资与市场地位 - 阶跃星辰完成超50亿元B+轮融资 创下过去12个月中国大模型赛道单笔最高融资纪录 [1] - 公司是国内多模态基础大模型领军企业 其成长潜力与市场认可度再度得到印证 [1] 技术实力与产品布局 - 公司布局了从语言到多模态、从理解到生成的全面模型矩阵 在多个国际评测中位列中国大模型第一 [2] - 已发布3代基础大模型 其中Step 3推理效率创行业新高 [2] - 语音模型Step Audio R1.1在Artificial Analysis权威榜单登顶 [2] - 推出行业首款可部署GUI开源模型 实现手机、车、电脑多端部署的端云结合方案 [2] - 通过自研分布式训练框架与系统优化技术 有效降低大模型训练成本并提升推理效率 [2] 商业化进展与市场应用 - 核心产品“阶跃AI”可精准解析多类型输入并提供全场景智能服务 [2] - 在金融、汽车等领域开发垂直应用 与吉利、OPPO、荣耀等行业龙头达成深度合作 [2] - 模型装机量超4200万台 日均服务近2000万人次 [2] - “AI+终端”战略落地成效显著 实现了“让智能触手可及” [2] 金融服务模式创新 - 浦发银行突破“重抵押、重报表”的传统思维 将服务重心转向“看技术、看团队、看未来” [4] - 为阶跃星辰量身打造全周期、定制化的金融解决方案 [4] - 组建专业科技金融服务团队 深入企业研发一线与业务场景 将评价重点聚焦于核心技术领先性、商业模式可持续性及团队行业积淀 [4] - 通过打造针对科技企业的专属金融产品 为企业研发与运营提供金融支持 [4]
优刻得完成DeepSeek-OCR-2接入
新浪财经· 2026-01-28 14:20
公司动态 - 优刻得于1月28日完成了DeepSeek-OCR-2的接入 [1] 技术进展 - DeepSeek最新开源的DeepSeek-OCR-2通过架构适配DeepEncoder V2,摒弃了经典的CLIP视觉分支,采用LLM作为视觉编码器 [1] - 该模型提出了视觉因果流范式,旨在解决多模态大模型在面对复杂表格或非线性文本时出现的语义与序列错配问题 [1] 技术原理与对比 - 传统的视觉语言模型存在固有的归纳偏置:采用光栅扫描并施加固定的绝对位置编码 [1] - 传统模型的扫描方式为从左到右、从上到下,这与人类“基于语义逻辑跳跃扫描”的视觉认知机制不同 [1] - 人类在阅读文档时,目光会随逻辑流动,遇到表格会按列或按行扫视,遇到分栏会自动跳跃 [1]
多模态大模型中Attention机制暗藏「骗局」,需用一个公式修正
36氪· 2026-01-27 16:15
行业研究:多模态模型效率优化 - 当前,视觉语言模型在多模态理解任务中取得了显著进展,模型通常通过语言到视觉的注意力机制来衡量视觉标记与文本之间的相关性,并据此进行视觉标记剪枝,以降低推理成本、提升运行效率 [1] - 然而,一个长期被忽视的关键问题是:注意力本身可能并非“语义重要性”的可靠指标,如果直接使用这些带有偏置的注意力进行视觉标记剪枝,往往会无意中保留不重要的视觉区域,同时丢失真正有助于任务理解的关键信息 [1] 核心问题:注意力机制的结构性偏置 - 研究发现,主流视觉语言模型中的注意力行为受到显著的结构性偏置影响,而非仅由语义决定 [1] - **位置偏置**:注意力更偏爱“后面的标记”,呈现出明显的单调上升趋势,这意味着模型更倾向于关注序列靠后的视觉标记,在图像中往往表现为对图像下方区域给予更高的注意力,这种偏好与图像语义本身没有直接关系 [2] - **填充区域注意力汇**:由于输入图像尺寸不一致,填充是常见操作,但研究发现这些语义上无用的填充区域对应的视觉标记在注意力计算中经常获得异常大的权重,其根源在于隐藏状态中出现了极端激活值,从而诱发“注意力汇”现象,这会直接误导基于注意力的剪枝策略 [4] 解决方案:注意力去偏修正方法 - 针对上述问题,研究团队的核心思路是对注意力本身进行去偏,而非提出新的剪枝方法或引入额外训练 [5] - 核心观察是,注意力中的偏置呈现出稳定、可建模的整体趋势,因此,研究人员通过对注意力随标记位置变化的整体趋势进行拟合,显式建模其中的位置偏置,并在此基础上对原始注意力进行去偏修正,从而有效削弱与内容无关的位置因素 [5] - 对于填充区域,该团队在剪枝阶段显式抑制其注意力贡献,避免注意力汇对标记排序产生干扰,整个过程不涉及模型结构修改,也不需要重新训练,可在推理阶段直接使用 [5] 实验验证与性能提升 - 该团队将注意力去偏策略作为即插即用模块,集成到多种主流基于注意力的视觉标记剪枝方法中进行评估,实验覆盖**6种剪枝基线方法**,在多个主流视觉语言模型(**7B/13B**参数规模)上进行测试,并验证于**10个图像理解任务**与**3个视频理解任务** [8] - 实验结果表明,在几乎所有设置下,经过注意力去偏修正后,剪枝模型均取得了稳定的性能提升,且在更激进的标记压缩条件下效果尤为明显 [8] - 具体数据表明,在LLaVA-v1.5-7B模型上,应用去偏方法后,FastV方法在VQAv2任务上的准确率从73.2提升至76.6,在GQA任务上从55.8提升至59.3,在MME任务上从1442.3提升至1499.5 [10] - 在LLaVA-v1.5-13B模型上,应用去偏方法后,FastV方法在VQAv2任务上的准确率从76.5提升至78.2,在GQA任务上从59.1提升至60.9 [10] 研究结论与行业意义 - 研究结果表明,注意力并非天然等价于语义重要性,在视觉语言模型中,如果忽视注意力中固有的结构性偏置,基于注意力的剪枝策略很容易被误导,从而影响模型整体性能 [12] - 通过对注意力进行简单而有效的去偏修正,可以在不引入额外训练成本的前提下,显著提升视觉标记剪枝的可靠性与泛化能力,该工作为多模态模型的高效部署提供了新的视角,也为后续更稳健的注意力机制设计奠定了基础 [12]
多模态大模型中Attention机制暗藏「骗局」,需用一个公式修正丨上大×南开
量子位· 2026-01-27 10:33
文章核心观点 - 当前主流视觉语言模型中的注意力机制存在结构性偏置,不能可靠地指示语义重要性,若直接用于视觉令牌剪枝会损害模型性能 [2] - 通过一种即插即用的注意力去偏方法,无需修改模型或重新训练,即可有效修正偏置,提升多种剪枝方法的性能与可靠性 [6][7] 注意力机制存在的结构性偏置 - **位置偏置**:语言到视觉的注意力权重呈现单调上升趋势,模型更倾向于关注序列靠后的视觉令牌,导致对图像下方区域给予更高但可能无关语义的关注 [3] - **填充区域偏置**:由于输入图像尺寸不一,填充区域在注意力计算中经常获得异常高的权重,即“注意力沉没”现象,这会误导剪枝策略保留空白区域 [5] 提出的解决方案:注意力去偏 - 核心思路是对注意力本身进行去偏修正,而非提出新的剪枝方法或引入额外训练 [6] - 方法是通过拟合注意力随令牌位置变化的整体趋势来显式建模位置偏置,并对原始注意力进行修正,同时显式抑制填充区域的注意力贡献 [6] - 该方法是一个即插即用模块,不涉及模型结构修改或重新训练,可在推理阶段直接使用 [6][7] 实验设计与结果 - 实验覆盖了**6种主流的基于注意力的视觉令牌剪枝方法**,在多个主流视觉语言模型上进行测试,包括7B和13B参数规模的模型 [7] - 评估任务包括**10个图像理解任务和3个视频理解任务** [7] - 实验结果表明,在几乎所有设置下,经过注意力去偏修正后,剪枝模型均取得了稳定的性能提升,在更激进的令牌压缩条件下效果尤为明显 [10] - 具体数据示例如下:在7B模型上,FastV方法在VQAv2任务上的得分从73.2提升至76.6;在13B模型上,FastV方法在VQAv2任务上的得分从76.5提升至78.2 [11] 研究结论与意义 - 注意力并非天然等价于语义重要性,忽视其固有结构性偏置会误导基于注意力的剪枝策略,影响模型性能 [12] - 该工作通过简单有效的注意力去偏修正,在不增加训练成本的前提下,显著提升了视觉令牌剪枝的可靠性与泛化能力 [12] - 该研究为多模态模型的高效部署提供了新视角,并为后续设计更稳健的注意力机制奠定了基础 [12]
11.77亿资本押注卡车新势力「一哥」,L2升维路线率先在商用车跑通!
量子位· 2026-01-27 10:33
文章核心观点 - 自动驾驶卡车公司DeepWay深向通过“正向定义、软硬一体、自研三电”的独特路径,在商业化落地和财务表现上实现了断层式领先,其“从L2大规模商业化渐进至L4”的战略被证明是可行且高效的,这构成了其获得资本持续押注并即将冲刺IPO的核心逻辑 [1][5][33][61][63] 公司融资与估值 - 2026年初,公司完成Pre-IPO轮融资,总额11.77亿元,投资方包括普华资本、淡马锡旗下ABC Impact、欣旺达等国资、外资及产业资本 [3][5] - 公司成立5年,融资朋友圈不断扩容,公开可查的累计融资金额已超过30亿元 [5] - 外界普遍认为公司估值已跨过10亿美元的“独角兽”门槛 [3][8] 经营业绩与财务数据 - **营收增长迅猛**:公司2023年收入4.26亿元,2024年增至19.69亿元,同比增长3.6倍;2025年上半年营收15亿元,同比增长97.6% [24] - **交付量断层式领先**:卡车销量从2023年的509辆增长至2024年的3002辆,同比暴涨490%;2025年单季度交付量已追平2024年全年 [16][17][18] - **毛利持续改善**:2023年、2024年及2025年上半年毛利分别为182万元、979万元和4414万元 [26] - **仍处亏损但研发投入高**:2022年至2024年期内亏损分别为2.66亿元、3.89亿元、6.75亿元;2025年上半年亏损3.71亿元,主要源于持续的研发投入 [28][30] - **研发费用**:2022年至2024年研发费用分别为2.31亿元、3.52亿元、3.65亿元;2025年上半年为1.79亿元 [30] 产品与技术战略 - **正向定义与全栈自研**:公司是全球首家批量交付正向定义重卡的新势力,完全自研新能源重卡平台、核心三电及自动驾驶技术 [13] - **独特的渐进式路径**:战略上先通过销售标配L2的智能卡车实现商业化造血,为高阶自动驾驶研发输血,后续逐步实现L4编队及单车L4的规模化落地 [14][33][54] - **全生命周期成本优势**:通过三电自研、电池底盘一体化、低风阻设计等,其重卡全生命周期成本比传统燃油重卡低18.7%,比油改电重卡低4.9% [23] 核心技术优势与价值体现 - **自研三电的价值**:CTB电池底盘一体化技术使电池包减重300公斤,整车线束减少30%,让同款车头能多拉1.2吨货物,为司机/车队创造显著经济效益 [41] - **分布式驱动与精准控制**:自研单桥双电机电驱桥,实现驱动备份冗余,可精准控制每个轮子,与智驾系统协同提升车辆稳定性和安全性,降低事故风险 [43] - **L2系统的安全与经济价值**:标配的L2系统“天玑·随行”使平均事故率下降60%,司机疲劳度下降50,为典型客户每辆车每年节省1.9万元 [48] - **L4技术路径清晰**:采用“1辆领航车+N辆跟随车”的编队模式,逐步实现无人化,目标节省80%甚至更高的人力成本,且技术可反哺提升L2系统能力 [50][58] 商业模式与市场定位 - **解决物流核心成本痛点**:公司战略是通过自研三电降低车辆成本,通过标配L2提升安全性能,从而降低保险、管理、事故运损等综合成本 [20][21] - **自研车辆是手段而非目的**:自研重卡是为了给自动驾驶技术提供最优的落地平台,以最低成本实现最优性能,避免与传统车企合作的不确定性 [34][36] - **展现可落地性与可持续性**:公司以成熟技术路径和最低成本推进自动驾驶商业化,随着交付量增长,自我造血能力增强,形成了经营正循环 [33][61]
研判趋势!2026年中国智能设计行业概述、产业链及市场现状分析:政策、技术双轮驱动智能设计革命,智能设计迈向实时迭代新纪元[图]
产业信息网· 2026-01-27 09:22
行业概述与定义 - 智能设计是指利用现代信息技术,使计算机系统模拟人类思维活动,在设计全过程中承担复杂任务,成为设计人员的决策助手,其核心目标是让机器拥有“设计思维”[2] - 智能设计的设计层次主要包括常规设计、联想设计和进化设计三个步骤[2] - 在工程实现层面,智能设计通常被划分为四条互补的技术路线:原理方案智能设计、协同求解系统、知识获取与表达型以及基于实例的推理(CBR)[4] 行业产业链 - 产业链上游主要包括AI芯片、服务器、专业设计数据库、数据标注、算法大模型、开发平台(如BIM、CAD)等硬件、软件、技术与平台[6] - 产业链中游为智能设计系统集成及服务环节[6] - 产业链下游主要应用于制造业、建筑业、医疗健康、消费电子、自动驾驶、数字孪生、太空设计等领域[6] 市场规模与增长 - 2024年,中国智能设计行业市场规模约为67.24亿元,同比增长20.70%[1][7] - 国家确立人工智能作为核心引擎的战略地位,并全面推进“人工智能+”行动以深化AI与制造业全流程融合,驱动行业技术革命性突破[1][7] - 生成式AI与多模态大模型的快速发展,实现了从“自然语言指令输入”到“实时方案生成与动态调整”的跨越式创新,使设计流程转向AI驱动的智能迭代[1][7] 上游核心技术(AI芯片)发展 - 2024年,中国AI芯片行业市场规模约为1447亿元,同比增长19.98%[7] - 国产AI芯片在架构创新(如存算一体、Chiplet)、制程工艺(3nm/2nm量产)及能效比提升上取得显著进展[7] - 具体技术突破案例包括:寒武纪思元590性能对标英伟达A100,阿里平头哥PPU芯片能效比超越英伟达部分产品[7] - AI芯片的国产化与技术进步为智能设计行业提供了“根技术”保障[7] 重点企业经营情况 - 阿里巴巴集团依托鹿班AI设计平台实现万级物料自动生成,并通过通义千问大模型推动多模态设计创新,形成“技术+生态”双轮驱动模式[8] - 中望软件以“All-in-One CAx”为核心,构建二维/三维设计-仿真-制造全链路解决方案,其自主Overdrive几何建模引擎实现3D CAD核心技术自主可控,产品覆盖全球90国,用户超140万[8] - 2024年,中望软件研发投入占比超30%,发布ZWCAD 2025、ZW3D 2025等新版本[8] - 2025年前三季度,中望软件营业收入为5.38亿元,同比增长4.99%;归母净利润为-0.41亿元,同比下降479.34%[8] - 天洑软件聚焦工业仿真领域,自主研发AICFD、AIFEM、AIPOD等系列软件,采用AI加速算法突破仿真耗时瓶颈,服务于能源、汽车、航空航天等高端制造领域[8] - 天洑软件产品适配银河麒麟操作系统,强化数据安全,并广泛应用于航空航天、新能源汽车“三电”系统、船舶海事等领域[8] 行业发展趋势 - 工作范式转型:设计师角色将从绘制静态界面转向定义动态的“生成规则”和架构AI智能体,主要职责是设定品牌基因、交互原则和安全边界,并维护设计组件库以指导AI自主生成方案[10] - 能力边界扩展:智能设计将从视觉和交互层面,扩展至构建全感知体验和精准的物理世界模型,例如进行“全感知设计”及利用“具身智能”和“世界模型”技术直接从概念生成可制造、性能优化的3D工程模型[11] - 产业流程重塑:智能设计将驱动整个“创意-制造”产业链重构,形成从需求洞察、智能生成、仿真验证到柔性制造的端到端平台能力竞争,催生“消费端创意直连制造”的大规模个性化定制模式[12]
云知声山海·知音2.0重磅发布 重塑人机交互新范式
智通财经· 2026-01-26 09:22
公司技术战略与产品发布 - 公司正加速完成其“一基两翼”技术战略的能力拼图 [1] - 公司于近日重磅发布“山海·知音”大模型2.0 [1] “山海·知音”大模型2.0核心能力 - 模型核心聚焦三大能力进化:听懂专业与乡音、聊出亲情与温度、极致机敏反应 [1] - 模型的ASR能力在公开和自有测试集中均显现领先语音识别能力,评测中实现从通用到极端全面的领先水平,超过了国内主流的开源和闭源语音大模型,达到业界最高水平 [1] - 模型的TTS以“高度拟人+创意多元”为核心,目前支持12种方言及10种外语,并能切换12种普通话风格 [1] - 模型基于端到端交互大脑,攻克流畅全双工交互挑战,支持随时打断、即时接话与连贯追问 [1] 技术基座与架构 - 模型依托“山海·Atlas”的多模态、跨语言基座能力 [1] - 能力背后是公司独创的“山海·Atlas”智算一体基座,将通用多模态大模型底座与Atlas基础架构深度整合 [1] - 该基座既是专业智能体的基础,也是感知AI中枢的根基 [1]
鸣鸣很忙今起招股,发售价不高于236.6港元;奈飞提出以全现金方式收购华纳兄弟
搜狐财经· 2026-01-21 10:06
资本市场与融资活动 - 湖南鸣鸣很忙商业连锁股份有限公司于1月20日启动全球发售,计划发售1410.11万股,其中国际发售约1269.09万股,香港公开发售约141.02万股,发售价区间为每股229.60-236.60港元,预计于1月28日在港交所主板上市,以发售价中位数233.10港元计算,预计全球发售所得款项净额约31.24亿港元 [2] - 杭州AI公司宇泛智能完成Pre-IPO+轮融资,金额折合人民币5.13亿元,由温州苍南县山海实业集团与马来西亚Crewstone International联合投资,老股东博将资本继续加码,资金将用于机器人本体、多模态大模型、通用机器人“大小脑”等核心能力建设及东南亚等海外市场拓展 [2] - AI陪伴公司自然选择完成新一轮超3000万美元融资,投资方包括阿里巴巴、蚂蚁集团、启明创投、五源资本、创世伙伴创投、云时资本等机构 [3] - 王腾新公司“今日宜休”完成总规模数千万元的种子轮融资,投资方包括高瓴创投、云九资本,公司计划于今年下半年发布系列软硬件产品并计划出海 [4] 行业并购与战略动态 - 美国流媒体平台奈飞将对华纳兄弟旗下资产的收购方案调整为全现金出价,总额维持在827亿美元不变,提出每股27.75美元的全现金报价,已获得华纳兄弟探索董事会一致支持,此举旨在阻止竞争对手派拉蒙的竞购 [2] 科技产品与市场发布 - 智能无人机品牌博坦Potensic推出融合AI短片、AI夜景等智能功能的轻量化ATOM系列无人机,并发布“Atom 2 + PTD-1带屏遥控器”产品体验方案,产品销往全球100多个国家和地区 [4] - 特斯拉中国官网在线商店上架Tesla Bot摆件(生肖盲盒版),定价199元,将于1月21日开售,该产品由40多个独立零件组成,配备20个关节点,高度还原第二代人形机器人,产品尺寸为5.5cm×18.2cm,净重约25克 [5]
击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了
机器之心· 2026-01-20 18:19
模型性能与突破 - 模思智能发布的MOSS-Transcribe-Diarize模型在多人说话场景的语音转录性能上超过了GPT-4o、Gemini、豆包等一众模型 [1] - 该模型能够轻松应对混乱插话、频繁切话或重叠说话等复杂场景,解决了语音识别领域多人说话场景的落地痛点问题 [1] - 在AISHELL-4、Podcast、Movies等多个语音基准测试中,模型均取得了业界最优的整体表现,尤其是在最接近真实应用的复杂影视剧场景下表现稳定 [2] - 模型在多说话人混合与重叠场景下取得了业内领先的转录准确率,拥有最低的字错误率与最优排列字错误率 [5] - 在说话人分离性能上,模型保持了最好的说话人标签准确性和一致性,优于其他因长音频切片导致识别不一致的模型 [5] - 模型支持128K的长上下文窗口,可以一次性输入并处理长达90分钟的音频,而当前顶尖商业模型受限于输入长度或输出格式的稳定性 [1][5] 技术架构与方案 - MOSS-Transcribe-Diarize是一个统一的端到端多模态语音转录模型,能够同时完成听懂内容、识别说话人及记录说话时间三件事 [8] - 模型主要解决带说话人归属和时间戳的转录这一经典且极具挑战的问题,克服了传统模块化拼接方案、引入LLM的半级联方案以及其他多模态框架尝试的缺陷 [8] - 该模型一举解决了长上下文窗口受限、长时记忆脆弱和缺乏原生时间戳三大核心瓶颈 [9] - 在架构设计上,模型采用统一的音频-文本多模态架构,将多说话人的声学表示投影到预训练文本LLM的特征空间中,在单一框架内联合建模词汇内容、说话人归属和时间戳预测 [11][12] - 在训练数据上,采用“虚实结合”的策略,使用大量真实世界对话音频和通过概率模拟器生成的合成数据进行训练,增强了对重叠语音、轮替等场景的鲁棒性 [13] 基准测试表现 - 在包含近40分钟真实世界会议录音的AISHELL-4数据集上,MOSS-Transcribe-Diarize在CER和cpCER两项指标上大幅优于所有基线模型,并表现出更低的Δcp值 [16] - 相比之下,GPT-4o和Gemini 3 Pro均无法可靠处理AISHELL-4等长音频输入,前者受限于音频输入长度,后者无法生成符合既定格式的有效输出 [16] - 在多说话人播客访谈场景的Podcast数据集上,模型再次取得所有参评模型中最低的CER和cpCER,并在Δcp值上优于其他模型,表明其在频繁话轮转换和长跨度说话人重现场景下归属更准确 [19] - 在复杂影视剧场景的Movies数据集上,面对短促话语、快速交替及频繁语音重叠的场景,模型依然优于所有基线模型,且在CER和cpCER两项指标间保持了较小差距 [21] 公司背景与战略 - MOSS系列模型由复旦大学教授邱锡鹏带领的团队研发,该团队组建的模思智能是一家专注面向情境智能的多模态大模型公司 [24] - 团队保持了清晰的战略技术路径:让大模型理解复杂的真实世界情境,并以情境多模态实现通用人工智能 [24] - 公司发布了一系列多模态领域的前沿技术成果,覆盖实时对话交互、复杂场景音频生成、高鲁棒性语音理解、多模态交互等核心能力场景 [24] - 面向未来,公司将持续深耕让AI理解用户所处全局情境的多模态智能,通过规模化物理世界的复杂真实情境,推动多模态交互与具身智能的产业化落地 [24] - 此前,公司已开源革命性的对话语音合成模型MOSS-TTSD,并发布了实现SOTA性能的无文本引导真端到端语音大模型MOSS-Speech [25]