MoE架构
搜索文档
总理座谈会上发言的中国AI新贵,是37岁河南人
新浪财经· 2026-01-21 18:25
公司概况与团队 - 公司MiniMax(稀宇科技)是一家成立仅四年的年轻AI公司,员工平均年龄29岁,团队几乎清一色为95后 [1][13] - 公司目前共有员工385人,其中研发人员占比超过73%,三分之一员工有海外背景,全员实现AI协作 [4][17] - 公司创始人兼CEO闫俊杰出生于1989年,拥有扎实的学术与产业背景,博士毕业于中国科学院自动化研究所,曾在清华大学从事博士后研究,并曾任职于商汤科技,从实习生成长为集团副总裁 [3][16] 发展历程与战略 - 公司于2022年初在上海创立,坚定押注全模态模型研发,其创立时间早于ChatGPT引发的热潮 [5][18] - 2023年,公司力排众议选择MoE架构,经历两次失败后获得突破,实现了以低成本接近国际顶尖模型的性能 [8][21] - 通过技术突破,公司以相当于美国头部模型1%的成本,实现了仅5%的性能差距,破解了高性能、低成本与商业化的三角难题 [8][21] 市场表现与成就 - 公司已成为全球从成立到IPO用时最短的AI独角兽之一 [9][22] - 公司于2026年1月9日在港交所上市,首日收盘股价大涨109.09%,市值攀升至1067亿港元 [9][22] - 公司产品已覆盖超过200个国家及地区,拥有超过2.12亿名用户,企业客户来自超过100个国家及地区,超过70%的收入来自海外市场 [7][20] 行业地位与影响 - 公司创始人闫俊杰成为继DeepSeek创始人梁文锋之后,第二位受邀出席总理高规格座谈会的AI大模型企业代表,显示出公司已进入国家战略视野 [1][14] - 创始人闫俊杰入选2024年《财富》中国40位40岁以下的商界精英榜 [9][22] - 创始人认为,创业公司之间的排名没有意义,人才竞争的主要对手是大型科技公司,技术突破的目标是超越美国同行 [13][26]
缔造中国AI最快IPO!985校友,总理座谈会发言
新浪财经· 2026-01-20 16:35
公司近期重大事件 - 2026年1月9日 MiniMax正式登陆香港交易所 发行价为每股165港元 开盘后股价大涨超70% 市值一度突破900亿港元 [1][6] - 公司IPO公开发售部分获得超过1800倍认购 成为当日全球资本市场最瞩目的风景 [1][6] - 公司成为全球从成立到IPO用时最短的AI独角兽之一 [5][10] 公司创始人背景与成就 - 创始人兼CEO闫俊杰 1989年出生于河南 2006年考入东南大学数学学院 2015年博士毕业于中国科学院自动化所模式识别国家重点实验室 并在清华大学计算机系从事博士后研究 [4][9] - 其职业生涯始于商汤科技 从实习生一路成长为副总裁 主导构建了通用的计算机视觉技术体系与智慧城市平台 [5][10] - 闫俊杰于2022年在上海正式创立MiniMax [5][10] - 闫俊杰入选2024年《财富》中国40位40岁以下的商界精英榜 [5][10] 公司技术战略与成果 - 2023年 创始人闫俊杰力排众议 将关键资源押注于当时并非行业共识的MoE架构 经历两次失败后获得成功 [5][10] - 该技术战略使MiniMax仅用美国头部模型1%的成本 实现了仅5%的性能差距 破解了高性能、低成本与商业化的三角难题 [5][10] 公司高层动态与政府关系 - 2026年1月19日 创始人兼CEO闫俊杰出席由国务院总理李强主持的专家、企业家和教科文卫体等领域代表座谈会 并就《政府工作报告》和《“十五五”规划纲要(草案)》征求意见稿发言 [1][6] - 闫俊杰是继DeepSeek创始人梁文锋后 第二位参会的AI大模型企业代表 [1][6] 公司未来发展规划 - 在港交所上市仪式上 闫俊杰表示将视此次IPO为“新旅程的开始” [5][10] - 公司未来仍将把大部分资源优先投入模型与产品能力的长期建设 以支撑持续技术创新与全球市场拓展 [5][10]
速递 | DeepSeek又发论文了,这可能是V4核心预告,普通人的3个机会来了?
未可知人工智能研究院· 2026-01-14 11:02
文章核心观点 - DeepSeek发布了一篇关于Engram模块的论文,该技术旨在解决Transformer架构缺乏原生记忆查找机制的核心缺陷,通过引入一个可扩展的查表模块,让AI能高效检索固定知识,从而解放计算资源用于复杂推理,这可能预示着DeepSeek V4的核心技术方向 [1][4][9][11][62][63] 一、核心问题与Engram模块技术原理 - Transformer架构将所有任务混合处理,没有区分固定知识检索和动态推理,导致效率低下,例如回答“戴安娜王妃的全名是什么?”需要动用多层神经网络进行计算 [6][7][18][20] - Engram模块为AI增加了“电子脑”或“速查手册”,采用现代化的N-gram方法,将固定知识组合(如“张仲景”、“四大发明”)存储在巨大词表中,实现快速调用 [9][10][22] - 该模块通过哈希函数映射解决传统N-gram存储爆炸问题,并通过“门控机制”根据上下文判断来解决多义性问题(如区分“Apple”是公司还是水果) [26] 二、反直觉发现:记忆模块对推理能力的提升 - 实验发现,在固定总参数量和算力下,调整MoE(混合专家模型)与Engram的分配比例,性能呈现U型曲线,最优性能出现在将20-25%的稀疏参数分配给Engram记忆模块时 [29][30][31][42] - 这一规律表明记忆无法替代计算,计算也无法高效模拟记忆,两者配合是最优解,且该U型曲线在不同规模下稳定存在,是一个可扩展的规律 [32][34] - 训练了27B参数的Engram模型,与同规模纯MoE模型对比,不仅知识类任务提升,推理、代码、数学等需要深度思考的任务性能提升更大,核心原因是Engram解放了早期神经网络层,使其能专注于复杂推理链条 [35][36] 三、对AI行业的冲击 - **冲击1:稀疏化进入“双轴时代”**:行业竞争从仅在MoE上卷效率,扩展到“条件记忆”这第二条路,可能导致OpenAI、Anthropic等巨头需要重新设计架构以跟进 [38][39] - **冲击2:硬件生态可能变化**:Engram的查表操作是确定性的,可提前预取并与计算重叠,实验将1000亿参数的Engram表放在CPU内存中,在H800 GPU上跑推理,吞吐量仅下降3%,这降低了对昂贵GPU内存的依赖,可能影响英伟达等硬件厂商 [40][41][43][44][45] - **冲击3:长上下文能力实现飞跃**:在处理超长文档任务时,准确率从八成多提升到九成多,实现了质的飞跃,因为Engram将局部依赖建模卸载给查表,释放了注意力容量去关注全局上下文,这对法律合同、医疗病历、长篇代码理解等场景意义重大 [46][47][48][49] 四、对普通人的机会方向 - **方向1:知识密集型应用迎来爆发期**:Engram能大幅优化固定知识检索的成本和速度,例如医疗、法律、教育领域的问答系统,成本可能降至原来的十分之一,速度提升十倍以上 [51][52][64] - **方向2:多语言和垂直领域微调服务**:Engram对语义相同但形式不同的token做了压缩,使128K词表的有效规模减少23%,且门控机制在中英文上表现良好,降低了多语言应用门槛,适合开发小语种客服机器人、金融风控报告生成等定制化服务 [54][55][58][72] - **方向3:长上下文应用的爆发**:Engram在长文本任务上的提升是质的飞跃,结合32K上下文窗口,能有效覆盖合同审查、医疗诊断、代码审计、学术研究等需要处理长文档的场景,为To B领域的企业服务提供了切入机会 [56][57][59][60][71][72]
Token售卖已无溢价、大模型公司转型“系统商”?记忆张量 CTO 李志宇:智能体能力会拉开差距,长期记忆与状态管理成竞争核心
AI前线· 2026-01-12 19:04
文章核心观点 - 大模型行业正从单纯追求模型规模扩展(Scaling up)转向追求系统效率、长期记忆与状态管理等可持续能力,竞争焦点从模型性能转向系统架构和工程化落地能力[2][8][17] - 智能体(Agent)是下一阶段核心主赛道,但现有模型的推理稳定性与可持续性不足,真正自主的智能体需要模型在推理过程可控、状态保持及系统协同三方面优化,竞争关键在于围绕模型构建的记忆、推理和系统架构能力[2][14][15] - 大模型公司正在演变为系统公司,核心竞争力在于构建具备长期记忆与状态管理能力的智能基础设施,而非单一的模型产品[2][17] - 若2026年各家模型能力无法形成代际差异,价格战将愈演愈烈,模型厂商需通过提供记忆增值服务、MCP增值服务等超越纯Token售卖的增值服务来获取溢价[2][16] 2025年行业现状与公司表现 - 2025年涌现出如MiniMax和智谱等冲击港股上市的“赛点公司”,以及Mannus等现象级Agentic产品,展示了商业化价值和场景可行性,但上市招股书也揭示了大模型公司普遍面临的投产比低、亏损严重等问题[4] - 科技公司面临技术节奏加快与商业回报不确定性放大的多层叠加压力,需同时应对持续投入算力与成本现金流约束,包括POC项目需评估收益[5] - 行业应对压力更趋理性,更强调系统效率、真实使用场景和可持续技术积累,而非单纯追逐参数规模或热点概念[5] - 员工整体状态“压力不小,但方向更清楚”,行业正从早期红利阶段走向拼工程、拼长期价值的阶段[5] 国内外AI发展水平对比 - 国内前沿AI在基础模型能力、多模态理解、推理效率和工程化落地方面取得实质性进展,涌现出DeepSeek-R2、Qwen3系列等优秀模型,在成本控制、系统优化和应用适配上形成自身优势[6] - 在部分通用能力和工程执行层面,与硅谷的差距正在快速缩小,甚至在某些场景下具备竞争力[6] - 但在长期基础研究积累、原创范式探索及面向下一代智能的系统性布局上,整体仍存在差距[6] - 竞争正进入更健康阶段,从单点能力对标转向技术路线和系统能力的分化[6] 技术发展趋势与路线变化 - Scaling up(扩大模型规模)仍能提升模型能力,但经济效益下降,已不再是单独成立的答案[8] - 行业瓶颈在于模型“用不好已有的信息”,如长上下文稳定性、跨时间一致性、复杂任务持续推理能力,多模态发展放大了此问题[8] - 技术路线关键变化是从训练时把模型做大,转向运行时让模型用得更好,强化学习、测试时计算、显式推理结构被大规模引入以补足纯预训练的不足[11] - 记忆、工具调用和系统编排成为核心能力,而不再只是外挂能力,模型能力提升正从一次性参数写入转向可持续的系统演化[11] - MoE架构在2025年成为主流,是在参数规模与推理开销间找到平衡的工程选择,解决了“算力怎么省”的问题,但并未改变智能范式或自动带来更好的推理稳定性[12] - 非MoE路线企业的差异化竞争力在于系统层面构建独特能力,如更有效的记忆机制、更稳定的推理流程或更贴近真实应用的数据闭环[12] 情境感知与智能体发展 - 2025年行业对情境感知的理解进步快于能力本身,意识到其不等于上下文长度,而是对环境、历史、目标和约束的综合理解能力[13] - 模型在短期情境理解、多轮对话连贯性、多模态即时状态感知上有提升,但在长期、跨任务、跨时间的情境一致性上能力仍有限[13] - 技术路线变化体现为将情境感知从模型内部的隐式能力转向系统层面的显式建模,如引入长期记忆、状态表示、环境建模和任务轨迹管理[13] - 情境感知正从一个模型特性演变为一个系统能力,这是智能体和长期智能成立的关键[14] - 大模型需在三个方面优化以支持智能体:推理从一次性回答转向过程可控;对状态的理解和保持能力;与工具、环境和记忆系统的协同能力[14] - 现有模型的推理能力不足以支撑真正意义上的自主智能体,瓶颈在于稳定性和可持续性,模型会漂移、遗忘、在长链路决策中逐步失真[15] 合成数据与推理数据集构建 - 大规模合成数据替代人工数据是正在发生但易被误读的趋势,合成数据已成为高质量训练数据的重要来源,尤其在推理能力、复杂任务分解场景[9] - 高价值合成数据需被严格约束、可验证、能放大信息增益,而非模型随意生成[9] - 构建高质量推理数据集需关注两点:是否有明确的推理结构(如中间状态、决策分支和失败路径);是否引入对抗性和反事实设计以暴露模型盲区[9] 模型价格战与商业模式演进 - 2025年模型价格战最关键的影响是模型性能提升上限受阻导致模型Tokens售卖溢价降低,不同厂商模型性能差异减小及模型开源使得纯售卖模型Token难以获得企业溢价认可[15] - 若2026年开源与闭源模型、不同公司模型间无法形成代际差,价格战将继续甚至愈演愈烈[16] - 部分国产卡下场且效率提升后,由于算力补贴存在,价格将逼近冰点,甚至越用越亏[16] - 模型厂商需在纯模型Token售卖模式上提供增值服务,如MCP增值服务、记忆增值服务等,通过额外能力提升来提供溢价空间[16] 未来竞争核心与代际飞跃方向 - 2026年大模型竞赛的核心是“记忆能力如何完成一次系统性升级”[18] - 技术演进趋势是从底层算力和KV Cache等激活记忆管理,到基模型层引入记忆原生机制,再到上层通过显式记忆支撑Agent和应用的长期运行能力,形成完整的记忆技术栈升级[18] - 下一次“大模型代际飞跃”可能来自系统层面管理参数记忆、激活记忆和显式记忆,跨推理过程进行调度、复用和隔离的能力,这将带来智能形态本身的跃迁[18] - 大模型公司的核心竞争力是构建具备长期记忆与状态管理能力的系统,这能让AI长期运行、持续进化,公司本质是在构建新的智能基础设施[17]
明势创投黄明明:四年六轮连续加注MiniMax,中国科技企业必将在全球舞台展现光芒
新浪财经· 2026-01-09 10:12
公司上市与市场地位 - MiniMax Group Inc 于1月9日在港交所主板挂牌上市,股票代码为“0100”,成为史上IPO规模最大的AI大模型公司 [1][3] - 公司获得了多家战略投资方和一线机构的投资与支持 [1][3] 核心投资方与投资逻辑 - 明势创投是MiniMax最早的投资方之一,于2022年3月首次参与投资,并在此后连续六轮加注,是参与公司历次融资轮次最多的机构 [1][3] - 投资方看好创始团队对AI底层技术范式转移的深刻理解,创始人闫俊杰在早期就谈及AGI、端到端数据驱动及AI 1.0到AI 2.0的跨越,展现了长期主义视野 [2][4] - 投资方认为最好的投资往往是非共识的,当找到能看到绝大多数人看不到的未来的创始人时,应全力支持 [3][5] 技术战略与研发投入 - MiniMax在底层模型上保持第一梯队的技术性能 [2][4] - 公司在2023年下半年毅然将大量资源投入MoE架构研发,这在当时并非业内共识,其决策基于通过更低成本向更高模型阶段演进的判断 [2][4][5] - 投资方相信公司具备在AGI发展周期中穿越波动的潜力,并最终通过技术优势实现商业价值的爆发 [2][5] 行业意义与未来展望 - MiniMax的成功上市意味着全球主流长线投资人对中国AI公司能力的认可,为中国大模型公司在全球市场竞争中探索出可行道路 [1][4] - 以MiniMax为代表的中国科技企业被寄望于在全球舞台上展现光芒,并对全球生产力革命带来深远影响 [1][4] - 投资方坚信,到2035年前,世界500强中将至少有150家中国科技企业,并希望成为其中50家全球领军者的长期伙伴 [3][5] 投资机构的生态布局 - 明势创投已形成独特的AI投资版图,以AI模型的快速演进为核心,覆盖从AIDC供应链、AI native智能硬件、具身智能到各类AI应用的完整产业链生态 [2][5]
MINIMAX-WP(00100):中国AI出海标杆,多模态布局未来
东吴证券· 2026-01-08 17:19
投资评级 - 报告未给出明确的投资评级,仅标注为“投资评级(暂无)” [1] - 报告在总结部分建议“关注”该公司 [7] 核心观点 - 报告认为MiniMax是中国AI出海的标杆企业,其“生而全球化”的定位和多模态布局构成了差异化优势 [7][12] - 公司的商业模式采取ToC和ToB双轮驱动,两者协同形成增长飞轮:消费者业务(Talkie/星野、海螺AI)贡献收入主体和现金流,并提供海量交互数据反哺模型迭代;开发者企业业务(API、解决方案)提供高毛利和稳定性 [7][30] - 公司的技术路线以MoE架构为核心,并早于多数同行布局多模态并行研发,全栈自研带来较高的研发效率 [7][43] - 报告预计公司2025-2027年收入将保持超过130%的复合高增长,毛利率将从2025年的23%显著提升至2027年的50% [7][80] - 公司IPO发行估值中间值为483亿港元,对应2025-2027年预测PS分别为77倍、32倍和16倍,估值高于商汤科技和第四范式,溢价源于更高的增长预期和业务质量 [7][86] 公司概况 - MiniMax成立于2021年12月,专注于通用人工智能基础技术研发,目标是构建具有国际竞争力的多模态大模型 [7][12] - 公司从成立之初就明确全球化定位,同步布局消费者产品和海外渠道,截至2025年9月30日,产品覆盖个人用户超过2.12亿,覆盖200多个国家和地区;企业和开发者客户超过10万,分布在100多个国家 [7][12] - 公司于2025年12月通过港交所聆讯并启动IPO,股票代码0100,发行估值461-504亿港元,计划募资超过6亿美元,基石投资者认购总额约27亿港元 [7][13] - 公司发展历程分为四个阶段:技术积累与产品验证(2021-2022)、海外突围与国内合规调整(2023)、多模态突破与全球化深化(2024)、商业化加速与Agent布局(2025至今) [14][15][16][17] - 创始团队拥有深厚的商汤科技背景,创始人兼CEO闫俊杰博士在AI领域有丰富经验和学术成就,公司组织架构年轻高效,员工平均年龄29岁,研发人员占比73.8% [12][18][19] - 公司累计融资超过15亿美元,主要股东包括阿里巴巴、米哈游、IDG资本、腾讯等,阿里巴巴系是最大机构投资者,上市前持股约15.66% [12][22][26][27][28] 商业模式与运营 - **消费者业务**:主要产品为Talkie/星野(角色互动娱乐)和海螺AI(文生视频)[7][31] - Talkie/星野在海外AI伴侣赛道领先,变现主要通过订阅(每月9.99美元至199.99美元)和应用内购买,付费意愿强 [31] - 海螺AI聚焦文本到视频生成,在生成速度、成本控制和中文场景理解上具备优势,变现路径包括免费额度加付费订阅、虚拟货币充值等 [34] - 截至2025年9月30日,消费者业务收入达3802万美元,占总收入71.1%,付费用户数增至177万人,用户日均使用时长超70分钟 [35] - **开发者企业业务**:主要通过API调用、专属资源服务和模型授权实现,毛利率稳定在70%左右 [7][38] - API服务按token或使用量计费,例如文本模型M2.1输入价格为2.1元/百万tokens,输出为8.4元/百万tokens;视频模型Hailuo-2.3文生视频价格为2.00元(768P 6s)[40] - 截至2025年9月30日,开放平台及其他企业服务收入1541.7万美元,占总收入28.9%,付费客户从2024年约400家增至约2500家 [39] - **协同效应**:消费者业务提供规模和数据反哺模型迭代,企业业务的高价值需求引导技术优先级,形成增长飞轮 [7][30][41] - **全球化商业化**:消费者业务海外收入占比已超50%,主要市场包括北美、欧洲和东南亚,避免了国内价格战 [41] 技术与竞争优势 - **技术路线**:公司以MoE架构为核心,并早期布局语言、视觉、语音三大模态的并行研发,坚持全栈自研 [7][43] - **研发投入**:截至2025年9月累计投入研发约5亿美元,2025年前九个月研发费用为1.80亿美元 [7][76] - **文本生成**:2025年底发布的M2.1开源模型强化了多语言编程和全栈开发能力,在Artificial Analysis榜单排名全球第11、开源第4 [51][52] - **语音生成**:Speech-02模型实现零样本语音克隆,登顶相关榜单;Speech 2.6针对Voice Agent场景优化,首包响应时间降至250毫秒,在性价比上具备优势 [58][62][63] - **视频生成**:Hailuo 02及Hailuo 2.3视频模型在全球基准测试中位居前列,例如Hailuo 02 Standard在文生视频排行榜位列第10(ELO 1197),Hailuo 02 Pro在图生视频排行榜位列第7(ELO 1271)[69][70] - **系统工程效率**:公司注重全栈优化和单位算力产出,通过与阿里云战略合作及自研NCR架构优化算力成本,训练相关云计算支出占收入比例从2023年的超过1365%优化至2025年前九个月的267% [46][77] - **竞争优势**:主要体现在全球化执行力强、双轮商业模式均衡、研发效率领先三个方面 [7] 财务表现与预测 - **历史收入**:公司收入快速增长,2023年为346万美元,2024年增长至3052万美元,同比增长782.17%;2025年前九个月收入为5344万美元,同比增长174% [1][7] - **毛利率改善**:公司毛利率呈现U型反转,从2023年的-24.7%改善至2025年前九个月的23.3% [75] - 消费者业务毛利率较低,2025年前九个月为5% [75] - 开发者企业业务毛利率较高,2025年前九个月为69% [75] - **盈利预测**:报告预计2025-2027年公司营业总收入分别为80.88百万美元、194.83百万美元、398.66百万美元,年复合增速超130% [1][80] - 预计消费者业务收入2025-2027年分别为58百万美元、127百万美元、229百万美元 [80] - 预计开发者企业业务收入2025-2027年分别为23百万美元、68百万美元、170百万美元 [81] - **毛利率预测**:预计总毛利率将从2025年的23%提升至2027年的50%,驱动因素包括消费者业务毛利率爬坡(从5%升至35%)及高毛利企业业务占比回升 [7][80] - **亏损状况**:公司仍处于亏损状态,报告预计2025-2027年归母净利润分别为-677.86百万美元、-474.28百万美元、-437.41百万美元 [1] - **现金状况**:截至2025年9月30日,公司现金及现金等价物余额约为3.63亿美元,加上短期理财总现金储备约10.46亿美元,预计可支撑运营约37个月 [78] 估值分析 - **发行估值**:本次港股IPO发行估值区间为461-504亿港元,取中间值为483亿港元(约434亿元人民币)[7][86] - **市销率(PS)**:基于报告收入预测,公司2025-2027年对应PS分别为77倍、32倍和16倍 [7][86] - **可比公司**:选取商汤科技和第四范式作为可比公司,MiniMax的估值倍数高于两者,报告认为溢价匹配其更高的复合增速和业务质量 [84][86]
科大讯飞攻克国产算力MoE训练效率难题
观察者网· 2025-11-06 21:21
核心技术升级 - 发布深度推理大模型讯飞星火X1.5,采用MoE架构,总参数量293B,激活参数量30B,推理效率相比星火X1提升100% [2] - 模型在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力六大核心能力全面对标国际主流,多语言能力覆盖超过130个语种,整体性能达到GPT-5的95%以上 [2] - 攻克长思维链强化学习训练效率,深度推理训练效率从30%提升至84%以上,并全球首发非自回归语音大模型架构,相比同尺寸自回归模型效果提升16%,推理成本下降520% [3] 软硬一体解决方案 - 发布融合AI与麦克风阵列、扬声器阵列、摄像头阵列、视觉呈现等的软硬件一体解决方案 [4] - 讯飞智能办公本X5通过八麦克风阵列在高噪环境下识别准确率达95.08%,AI翻译耳机复杂噪声下识别准确率达97.1%,双屏翻译机2.0在90dB噪音下识别率达98.69% [4] - 智能座舱音响方案iFLYSOUND已在19家车企量产落地,出货超100万台,AI黑板视觉疲劳降低50%,AI学习机获10余项权威护眼认证 [6] 多模态交互与个性化技术 - 数字人导览“小飞”展示多模态交互能力,实现多人多语种对话、个性化推荐及任务完成 [6] - 星火X1.5具备个性化记忆能力,通过构建用户记忆库实现长期画像、近期反馈、短期对话的综合理解 [7] - 首发百变声音复刻技术,基于星火语音大模型,仅需一句录音即可复刻任意音色,并用一条指令创造任意风格的声音 [7] 行业应用落地 - 教育领域首创由3大类、3层级、4000+标签构成的错因体系,通过星火智能批阅机和教师助手实现“小时级闭环”教学范式变革 [8] - 医疗领域星火医疗大模型专科AI诊疗能力达到等级医院主任级医师水平,智医助理试点显示人机协同将诊断合理率从87%提升至96%,病历书写时间减半 [8] - 个人AI健康助手“讯飞晓医”支持解析99%医学报告,累计完成1.6亿次AI健康咨询 [8] 开发者生态与全球化 - 2025年AI开发者大赛吸引来自17个国家的36898个团队参加,涌现4622个垂类智能体,开放平台开发者总数达968万,近一年新增200万,其中大模型企业开发者增长125% [9] - 全面开源首个原生支持RPA的智能体平台Astron,提供“开箱即用”的八大行业智能体 [9] - 启动“星火点亮全球”计划,依托多语言与自主可控技术,与全球伙伴展开深度合作 [9]
小米最新大模型成果!罗福莉现身了
自动驾驶之心· 2025-10-19 00:03
公司AI研究进展 - 小米AI团队与北京大学联合发布一篇聚焦MoE与强化学习的论文[2] - 论文通讯作者包括此前从DeepSeek转会至小米的AI研究员罗福莉[4] - 罗福莉硕士毕业于北京大学,其学术论文总引用次数已超过1.1万次,今年新增约八千次引用[5][60] 技术核心问题与解决方案 - 当前MoE架构在强化学习中面临路由机制导致训练不稳定的挑战,严重时会导致模型崩溃[9][10] - 研究团队提出R3方法,通过在训练中复用推理阶段的路由分布来解决路由随机性问题[28][29][30] - R3方法能够与现有的前缀缓存系统无缝衔接,通过缓存路由掩码提升计算效率[35][36][38] 实验性能结果 - 基于Qwen3-30B-A3B模型的实验显示,R3方法在多mini-step设置下GRPO+R3比GSPO高出1.29分[41][42] - 将R3与GSPO结合性能可进一步提升0.95分[43] - R3显著提升训练稳定性,GRPO训练到第60步已严重跑偏,而R3到第150步仍保持平缓曲线[44][45][47]
明略科技吴明辉:未来全世界不应该只有一种机器人,也不应该只有一种模型
IPO早知道· 2025-10-18 11:51
机器人形态与适用环境 - 人形机器人适应人类环境的成本和效率表现不佳[2][3] - 提出反向思考解决方案:改造机器人环境使其专精其用 而非改变机器人本身[2][3] - 在工厂或酒店等B端商业化场景中 环境可实现标准化定制和优化以适配专用机器人[4] 人工智能模型架构策略 - 企业级服务领域重视效率 存在对可安全部署、可离线运行的小模型的真实需求[2][4] - 采用约7B参数的小模型在BUA、CUA全球权威榜单中达到与万亿参数大模型类似水平[4] - 平台中大部分任务采用小模型 仅个别复杂任务使用大模型[2][5] 多智能体平台技术架构 - 发布多智能体平台DeepMiner 采用MoA架构[5] - MoA架构将复杂任务分解给不同sub agent执行 比MoE架构更开放和高效[5] - 该架构下研发可分布式并行 并可与其他公司合作 各自开发专属agent和模型[5] 行业未来展望 - 未来全世界不应只有一种机器人或一种模型 应呈现百花齐放状态[2][7] - 机器人未来最大应用场景可能包括跟随火箭进入火星等极端环境[4]
FSD V14深度解析!自动驾驶AI的觉醒时刻?
自动驾驶之心· 2025-10-18 00:04
FSD V14版本概述 - FSD V14被公司描述为具有"觉醒"体验的版本,预计将首次超越人类驾驶员的安全水平[2] - 该版本面向部分早期用户推送,旨在向"无人监督"级别迈出实质性一步[3][9] - V14已更新至V14.1.1版本,改善了顿挫与幽灵刹车问题,V14.2将于几周后发布[27] 技术能力提升 - 新增到达选项功能,支持在停车场、街道、车道、停车库或路边选择泊车位置[7] - 增加对紧急车辆(如警车、消防车、救护车)的靠边停车或让行处理能力[7] - 将导航和路径规划整合到基于视觉的神经网络中,实时处理道路封闭和绕行[7] - 提供额外的速度配置文件,进一步定制驾驶风格偏好[7] - 改进对静态和动态门的处理能力[7] - 增强对道路遗撒物(如轮胎、树枝、箱子)的绕行偏移能力[7] 场景处理优化 - 优化无保护转弯、变道、车辆切入和校车等多种场景的处理能力[7] - 提升系统故障管理能力,从降级操作中平滑恢复,增强可靠性[7] - 增加自动窄场清洗功能,提供快速高效的前摄像头自清洁[7] - 改进对挡风玻璃内部残留物积聚的警报功能[7] - 整体平滑度和感知能力得到提升[7] - 停车位选择和停车质量有所改善[7] 实车测试表现 - 在无GPS停车场环境中能准确识别"EXIT"出口文字与箭头,顺利找到出口[12] - 识别施工封路标志后执行掉头操作,并实时更新导航路线完成绕行[12] - 在夜间关闭的停车场场景中,快速判断通行不可行并立即转向寻找新停车地点[15] - 在窄路施工场景中准确识别施工人员手势标牌,完成停车等待和绕行通过[18] - 通过音频信号识别500米外警笛声,在严重拥堵路段提前寻找变道空间完成特殊车辆避让[21] - 在快餐店Drive-Thru场景中准确停靠点餐麦克风处,并自动跟车前行[24] 技术架构推测 - 可能首次引入语言模态,采用类VLA架构[12][28] - 模型参数量提升10倍,达到750亿规模,Context Length提升3倍[28] - HW4上的FSD V13模型文件规模达7.5GB,假设8bit存储相当于75亿参数[28] - 最可能的技术方案是MoE架构的VLA模型,使用local parameter类似MoE模型中不同的experts网络[28] - 音频输入被整合到控制模型中,新款Model系列配备4麦克风阵列加强音频处理能力[21][28] - 导航信息与视觉网络深度融合,使模型能够根据实时路况调整行驶策略[28]