源Yuan3.0 Ultra多模态基础大模型
搜索文档
通用人工智能公司VAST完成5000万美元A轮融资;移远艾络迅与荣耀联合推出Meteer AI跳舞机器人玩具丨AIGC日报
创业邦· 2026-03-07 09:12
通用人工智能公司VAST融资与规划 - 通用人工智能公司VAST完成5000万美元A轮融资,由阿里、恒旭资本联合领投,元禾璞华、BV百度风投、东方嘉富等跟投,老股东春华创投、北京市人工智能产业投资基金超额加注[2] - 本轮融资资金将重点投入世界模型的顶尖人才招募、核心算法持续迭代与数据积累,同时大力推进UGC互动内容平台的建设[2] AI终端产品与生态合作 - 移远通信旗下物联网智能品牌艾络迅与荣耀合作,推出儿童AI玩具Meteer AI跳舞机器人[2] - 该机器人支持自然语言理解和多轮对话,儿童可通过语音进行日常交流、查询天气时间、语音点歌,并进行故事讲述和英语学习互动[2][3] 大模型开源与生态发展 - YuanLab.ai团队正式开源发布万亿参数规模的多模态基础大模型“源Yuan3.0 Ultra”[2] - 该模型是当前业界仅有的三个万亿级开源多模态大模型之一,其发布旨在加速企业级Agent落地,并进一步丰富全球万亿级开源大模型生态[2] 智能体云平台与算力运营创新 - 软通动力以软通平潭两岸融合智算中心(二期)为核心载体,推出睿动AI智能体云平台[2] - 该平台融合算力基建、Token经济与OpenClaw智能体框架,旨在创新算力运营模式,打造昇腾算力消纳核心引擎[2]
企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布
量子位· 2026-03-05 14:33
模型发布与核心定位 - 源YuanLab.ai团队正式开源发布Yuan3.0 Ultra多模态基础大模型 [1] - 该模型是面向万亿参数规模打造的旗舰模型,也是当前业界仅有的三个万亿级开源多模态大模型之一 [2] - 模型采用统一多模态模型架构,可实现视觉与语言信息的协同建模 [2] 模型核心技术与效率突破 - 模型语言主干网络基于混合专家架构构建,训练初始阶段参数规模为1515B,通过LAEP方法优化至1010B,模型参数减少33.3% [2][18] - 采用LAEP算法后,整体预训练算力效率提升49% [2][18] - 模型激活参数为68.8B [2] - 模型引入了Localized Filtering Attention机制,相比经典Attention结构可获得更高的模型精度表现 [2] 面向企业应用的核心能力 - Yuan3.0 Ultra围绕企业应用及智能体工具调用进行了深度优化,在多模态文档理解、检索增强生成、表格数据分析、内容摘要与工具调用等企业级任务中表现突出 [2] - 模型旨在高质量处理企业环境中的复杂信息形态,如图文混排文档、多级结构表格以及跨文档知识检索,为构建多模态数据驱动的企业Agent AI提供核心能力支撑 [2] 复杂文档与图表信息理解 - 在DocMatix、MMTab等多模态文档理解评测中领先于Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2等最新前沿模型 [6] - 能够准确解析图文混排文档结构并提取关键数据指标,支撑财报分析、合同审阅等场景 [6] 多源信息检索与整合 - 在ChatRAG、SummEval等检索增强生成评测中表现领先于Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2等最新前沿模型 [8] - 可以在企业知识环境中完成检索、理解与综合生成的完整信息处理流程 [8] 数据分析与业务决策辅助 - 在Spider与BIRD等Text-to-SQL基准评测中表现出色,在Spider评测中领先Kimi K2.5、DeepSeek V3.2等前沿大模型 [10] - 能够高质量支持数据查询、运营分析以及报告生成等任务,支撑企业构建业务分析与决策系统 [10] 模型架构创新与设计理念 - 研究团队发现,MoE大模型在训练稳定阶段,专家的token负载极不均衡,最高专家与最低专家负载差异近500倍 [11][12] - 专家负载分化被解释为模型在训练过程中形成“功能专一化”的体现,类似于人类大脑认知组织的专业化分工 [13] - LAEP算法能够根据预训练过程中形成的专家负载统计信息,动态识别低贡献专家,并对模型结构进行自适应裁剪与专家重排 [14] - 实验结果显示,采用LAEP方法后,在1010B参数规模下,模型TFLOPS达到92.60,显著高于基线模型的62.14 [15] - 这一研究揭示,大模型结构应演化为具有结构分工与专业化能力的“认知系统” [15] 训练策略与推理优化 - Yuan3.0 Ultra的训练策略聚焦于Fast-thinking强化学习范式,默认采用高效的短路径推理方式 [16] - 团队围绕反思抑制奖励机制进行了系统优化,通过对反思次数引入奖励约束,使模型在获得可靠答案后主动减少无效反思 [19] - 该机制有效缓解了快思考模式下的“过度思考”现象,实现了模型精度显著提升与推理过程中生成token数量持续下降 [19][21] 开源与生态影响 - Yuan3.0 Ultra已全面开源,模型参数和代码均可免费下载使用 [4] - 开源内容包括模型权重、技术报告、完整的训练方法与评测结果,支持社区进行二次训练与行业定制 [22] - 团队希望通过开源,推动大模型从“能力展示”走向“规模化落地”,为企业用户提供面向Agent应用的多模态基础大模型 [22] - 源Yuan3.0基础大模型将包含Flash、Pro和Ultra等版本,模型参数量为40B、200B和1T等,相关成果将陆续发布 [23]