大模型

搜索文档
憋大招,MiniMax发布全球首个混合架构开源模型M1 能后来者居上吗?
每日经济新闻· 2025-06-17 23:01
模型技术突破 - 公司发布全球首个开源大规模混合架构推理模型MiniMax-M1,具备百万Token级长文本处理能力,上下文窗口达100万Token,与谷歌Gemini 2.5 Pro持平,是DeepSeek-R1的8倍 [1][4] - 模型采用独创"Lightning Attention"混合架构,显著优化长文本计算效率,传统Transformer模型计算量随序列长度呈平方级增长的问题得到解决 [6] - 强化训练成本下降一个量级至53万美元,推理效率数倍于竞争对手 [1] 定价策略 - 采用分档定价策略:0-3.2万Token档输入0.8元/百万Token、输出8元/百万Token;3.2万-12.8万Token档输入1.2元/百万Token、输出16元/百万Token;12.8万-100万Token档输入2.4元/百万Token、输出24元/百万Token [4] - 前两档定价低于DeepSeek-R1,第三档为独家覆盖领域,自有平台App和Web端保持不限量免费使用 [4] 算法创新 - 提出CISPO算法(Clipped IS-weight Policy Optimization),通过裁剪重要性采样权重优化强化学习效率和稳定性,替代传统PPO/GRPO裁剪方式 [6] - 该算法未采用调整Token更新方式,而是另辟蹊径提升训练和推理成本效益 [6] 行业竞争格局 - 行业呈现技术快速迭代态势:阿里开源Qwen3参数量仅为DeepSeek-R1的1/3,百度文心大模型4.5 API价格仅为GPT-4.5的1% [7] - 专家认为基础模型仍有较大优化空间,算法突破方向将决定下一代科技巨头归属 [10] 公司战略方向 - 明确"加速技术迭代"为现阶段核心目标,结束半年战略摇摆期,将增长和收入目标置于技术突破之后 [8] - 2023年完成品牌整合(海螺AI更名MiniMax),2024年连续发布文本/视觉/语音多模态模型(01系列/VL-01/Speech-02) [8][9] - 布局AI Agent赛道,认为2025年将是关键发展节点,开源策略旨在促进长上下文研究和应用创新 [9] 商业化布局 - 采取B端+C端双线布局,覆盖国内外市场,在保持技术攻坚的同时推进商业化 [9] - 计划开展"开源周"活动,连续4个工作日发布新技术或产品更新 [10]
xbench评测集正式开源
红杉汇· 2025-06-17 21:27
开源AI基准测试xbench - 红杉中国正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch,旨在量化AI系统在真实场景的效用价值并采用长青评估机制[1] - xbench-ScienceQA聚焦STEM学科,包含数学、物理、化学等8个主流学科,题目平均正确率仅32%,其中34%题目正确率低于20%[2][5][12] - xbench-DeepSearch专注评估AI Agent的深度搜索能力,要求综合运用规划+搜索+推理+总结的端到端能力,弥补中文语境搜索题库不足的弱点[3] 评测集特点 xbench-ScienceQA - 题目来源:邀请顶级院校博士和行业专家出题,确保来源可靠、多学科、搜索引擎未收录且答案明确[2] - 题型分布:包含77道问答题、14道多选题和9道单选题,降低模型"蒙对"概率[8] - 难度控制:采用LLM难度检验、同行检验等方式,实测不同模型得分差距超30%[2][10] xbench-DeepSearch - 题目设计:要求搜索空间大或推理步骤多,淘汰正确率>80%的题目[13][14] - 主题覆盖:参考OpenAI BrowseComp分类,确保多样性,涵盖历史、科技等方向[15] - 更新机制:每月汇报模型表现,每季度更新评估集,内部维护黑盒版本防止刷榜[3] 例题分析 ScienceQA示例 - 计算机题示例:考察图论单源最短路算法,正确答案为O(m√(log n·log log n)),被测模型平均正确率<5%[21][22] - 化学多选题:涉及物质结构最新研究成果,采用"全对才得分"评分方式,平均正确率<20%[24][26] DeepSearch示例 - 广度搜索题:计算东北三省接壤外国的地市数量,需跨省份数据整合,平均正确率47%[28][29] - 深度推理题:统计尼米兹级航母建造期间总统海军服役年限,侧重分步推理,正确率33%[29][30] 行业影响 - 填补高质量Agent评测集空白,动态更新机制适应AI技术快速迭代[3][31] - 开源模式吸引全球开发者参与,推动AI评估标准进化[1][33]
从“六小龙”到“四小强”,零一和百川做错了什么?
36氪· 2025-06-17 20:27
行业洗牌与公司分化 - 2023年被称为"大模型元年",国内"AI六小龙"累计融资超60亿元人民币,占国产大模型早期融资总额一半以上 [2] - 2024年底行业进入"冷静期",六小龙中仅智谱AI和阶跃星辰保持融资活跃,零一万物和百川智能明显掉队 [2][3] - 行业竞争法则从烧钱和技术参数转向商业化落地,幸存者智谱、MiniMax、月之暗面和阶跃星辰选择深耕细分赛道 [3] 零一万物的困境 - 技术参数领先但产品落地滞后,工程化能力不足,ToB业务场景有限,ToC海外项目组在2024年底被裁撤 [4] - 2024年底创始团队人事震荡,核心高管离职,预训练团队被阿里收编,放弃自研大模型底座转向应用层 [5] - 高管离职潮持续至2025年,包括COO张帆、首席战略官张阔等多名核心成员 [6] 百川智能的战略失误 - 一年内经历三次战略转向:从C端超级应用到多模态通用大模型,最终聚焦医疗AI但未达行业标准 [7] - C端产品"百小应"App DAU未突破5000,远落后竞品;医疗领域合作松散,错失先发优势 [7][8] - 2025年初联合创始人陈炜鹏等核心成员离职,团队核心瓦解 [8][10] 幸存者面临的挑战 - MiniMax开源混合注意力推理模型MiniMax-M1,性能比肩DeepSeek-R1,但商业化进度克制 [11][13] - 月之暗面主打产品Kimi用户增长乏力,尝试内容社区但面临冷启动难题,内部治理问题频发 [14][16] - 阶跃星辰转向ToB与终端合作,视频生成负责人段楠离职释放人才红利减退信号 [17][19] - 智谱具备ToB基础但面临算力成本高、定制交付难等挑战,生态依赖头部客户 [20] 行业格局变化 - DeepSeek以GPT-4水准性能及1/10成本改变竞争格局,新晋"基模五强"包括字节、阿里、阶跃星辰、智谱和DeepSeek [11] - 行业从技术赛马转向创业公司战略调整能力考验,长期价值取决于场景聚焦与产品闭环 [21]
马斯克悄悄给新车增加硬件传感器,重新将FSD定义成“自动”
虎嗅· 2025-06-17 16:47
特斯拉自动驾驶技术升级 - 特斯拉新版Model S/X新增车外前视摄像头,硬件配置从8个摄像头升级至9个 [7][9][30] - 官方将FSD功能描述从"自动辅助驾驶"改为"自动驾驶",删除"辅助"二字 [12][13][17] - 采用"切香肠"战术逐步推进自动驾驶概念,区别于国内厂商强调"辅助"的宣传策略 [16][19] 硬件方案迭代 - HW 3.0硬件采用自研芯片,单芯片算力72TOPS,板卡算力144TOPS,配备前向毫米波雷达+环视摄像头+超声波雷达 [24][26] - HW 4.0取消所有毫米波雷达和超声波雷达,纯视觉方案8摄像头,算力700TOPS+,中国市场版本加回毫米波雷达 [27][29] - HW 5.0预计明年推出,算力达数千TOPS,可能成为特斯拉宣称"自动驾驶"的技术基础 [47] 软件与算法体系 - FSD最新版本V13.2.5增强非规范场景理解、降低碰撞风险、提升摄像头清洁效率,覆盖HW3.0和HW4.0所有车型 [34][36] - 采用超大规模基座模型,参数规模远超竞争对手,算力集群约30 EFLPOS [38][39] - 算法架构基于VLA模型,通过认知理解能力处理Corner case,采用预训练+强化学习+模型蒸馏技术 [40][43] Robotaxi与市场策略 - 特斯拉Robotaxi采用Model Y车型,硬件与量产车相同,软件可能搭载FSD V14 [50][51] - 北美政策或允许特斯拉生产不符合现行机动车规定的自动驾驶车型 [53] - 中国区6月起扩大FSD推送范围,可能推出月付订阅模式降低体验门槛 [56][57] 行业技术路线对比 - 国内厂商如小鹏、蔚来、华为采用类似技术路线,但命名为"L3"而非"自动驾驶" [48] - 特斯拉Robotaxi采用大算力+模型驱动,区别于Waymo等传统L4玩家的多传感器冗余方案 [50] - 纯视觉方案与多传感器方案在技术路径上形成明显分野 [27][29]
MiniMax发布推理模型对标DeepSeek,算力成本仅约53万美元
第一财经· 2025-06-17 15:26
公司动态 - MiniMax宣布连续五天发布重要更新,首日开源推理模型MiniMax-M1 [1] - MiniMax-M1在多项基准测试中表现优异,比肩DeepSeek-R1、Qwen3等开源模型,接近海外领先模型 [3] - 模型训练效率超出预期,仅用3周时间、512块H800 GPU完成强化学习训练阶段,算力租赁成本53.47万美元 [3] - MiniMax-M1在编程能力测试中表现突出,一次通过"拆烟囱"编程案例,优于DeepSeek-R1-0528和Gemini-2.5-Pro [3] - 模型中文写作严谨优先,幻觉较低,注重指令遵循 [5] - MiniMax-M1拥有100万上下文窗口长度,与Gemini 2.5 Pro相当,是DeepSeek R1的8倍 [5] - 在长上下文理解任务(MRCR)中表现优异,超越所有开源权重模型和部分海外顶尖模型,全球排名第二 [5] - 在TAU-bench测试中表现出色,超越DeepSeeK-R1-0528和Gemini-2.5 Pro,仅次于OpenAI o3和Claude 4 Opus [7] - 在代码能力(SWE-bench)上显著超越大部分开源模型,仅微弱差距次于DeepSeek最新发布的R1 [7] - MiniMax提出创新强化学习算法CISPO,在数学AIME实验中比字节DAPO算法收敛性能快一倍 [8] - 模型定价采用阶梯式,对标DeepSeek-R1性价比更高 [8] - MiniMax预告后续四天将有更多更新,业界预期海螺新版本即将亮相 [9] 行业动态 - 月之暗面同日开源编程模型Kimi-Dev-72B,基于阿里云Qwen2.5-72B微调 [8] - Kimi-Dev-72B在SWE-bench编程基准测试中取得全球最高开源模型水平,成绩超过新版DeepSeek-R1 [8] - 但实际测试显示Kimi-Dev-72B生成的代码需要修改多个bug才能运行,引发过拟合质疑 [9] - AI六小龙经过半年沉寂后重新加入大模型竞争 [9] - 云启资本合伙人陈昱表示长文本能力对社交应用、情感陪伴应用和Agent是关键技术 [7] 技术亮点 - MiniMax-M1训练材料足够新,思考时多次反刍成功避坑 [3] - 闪电注意力机制为主的混合架构使长文本处理具有算力效率优势,8万Token推理只需DeepSeek R1约30%算力 [7] - CISPO强化学习算法显著优于DeepSeek早期使用的GRPO [8] - 模型在样式和光影效果方面仍有不足,创意内容生成能力有限 [5]
技术更新 or 组织重塑,企业如何用好“数据智能”?
AI前线· 2025-06-17 14:56
作者 | AICon 全球人工智能开发与应用大会 策划 | 燕珊 编辑 | 宇琪 大模型浪潮正引领数据管理与分析迈入全新阶段,Chat BI、Agent+Workflow 等应用,使业务人 员能够通过自然语言交互即时获取数据洞察,显著释放生产力。那么,如何构建高质量数据集、 优化检索效率?如何让数据在大模型的应用中发挥最大效能? 近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了 DaoCloud 道客联合创始人兼首席技术官 郭峰 担任主持人,和 中电金信研究院副院长单海军 、 数据项素产品副总裁覃睿 、 货拉拉大数 据专家凌霄 一起,在 AICon 全球人工智能开发与应用大会 2025 北京站 即将召开之际,共同探 讨智能化数据管理体系的搭建。 在 6 月 27-28 日将于北京举办的 AICon 全球人工智能开发与应用大会 上,我们特别设置了 【 大模型时代的数据处理与分析 】 专题。该专题将围绕数据科学家、工程师、技术管理者等不同角 色的从业者,通过实际案例分析和专家分享,探讨如何提升数据质量、优化检索效率,构建智能 化数据管理体系,让数据在大模型的应用中发挥最大效能。查看大会日程解锁更多精 ...
杉数科技申请基于大模型的信息处理方法以及电子设备专利,减少条件信息梳理过程中对专家的依赖
搜狐财经· 2025-06-17 13:21
专利技术 - 杉数科技及第五范式联合申请"基于大模型的信息处理方法以及电子设备"专利,公开号CN120163241A,申请日期为2025年02月 [1] - 专利方法通过大模型生成运筹优化模型的提问信息,分析用户回答以获取需求条件,减少对专家依赖并提升效率 [1] - 技术优势包括提升条件梳理的一致性和稳定性,相比人工梳理更具可靠性 [1] 公司背景 - 杉数科技(北京)成立于2016年,注册资本1300.374773万人民币,对外投资10家企业,参与招投标74次,拥有商标124条、专利279条、行政许可3个 [2] - 上海杉数网络科技成立于2016年,注册资本1000万人民币,参与招投标8次,拥有专利268条、行政许可1个 [2] - 广州杉数科技成立于2023年,注册资本100万人民币,拥有专利111条、行政许可3个 [2] - 杉数科技(南京)成立于2023年,注册资本300万人民币,拥有专利111条、行政许可1个 [2] - 第五范式(深圳)成立于2018年,注册资本100万人民币,拥有专利263条、行政许可4个 [3] - 杉数科技(苏州)成立于2016年,注册资本100万人民币,拥有专利258条、行政许可1个 [3] 行业动态 - 杉数科技通过多地子公司布局科技推广、软件与信息技术服务、专业技术服务等领域,专利储备总量达279+268+111+111+258=1027条 [2][3] - 第五范式(深圳)专利储备263条,与杉数科技联合开发大模型相关技术,显示行业技术协同趋势 [1][3]
同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
机器之心· 2025-06-17 11:22
大模型技术进展 - MiniMax发布全球首款开源权重的大规模混合注意力推理模型MiniMax-M1,支持100万token输入和8万token输出,是DeepSeek R1上下文规模的8倍 [18][19] - MiniMax-M1采用混合专家(MoE)架构与闪电注意力机制,总参数量456B,每个token激活45.9B参数,在生成长度10万token时FLOPs仅为DeepSeek R1的25% [18][20] - 月之暗面发布开源编程大模型Kimi-Dev-72B,在SWE-bench Verified基准上取得60.4%成绩,创开源模型新SOTA [10][37] 模型性能对比 - MiniMax-M1在17个主流评测集中表现突出,在软件工程、长上下文处理和工具使用等生产力场景具有显著优势 [25] - MiniMax-M1-80k在大多数基准测试中优于MiniMax-M1-40k,验证扩展计算资源的有效性 [27] - 实测显示MiniMax-M1-80K生成代码一次通过,而Kimi-Dev-72B需要Claude-4-Sonnet修复3个bug才能运行 [13] 技术创新 - MiniMax开发CISPO新颖算法,强化学习收敛速度比DAPO等算法快一倍 [20] - MiniMax混合注意力设计提升强化学习效率,仅用512块H800三周时间,租赁成本53.47万美元 [23] - Kimi-Dev-72B采用BugFixer与TestWriter协作机制,通过中期训练和强化学习优化代码修复能力 [40][43] 应用场景 - MiniMax-M1支持UI组件聚焦、交互式应用程序和游戏开发,可快速生成HTML页面和Web应用 [5][6][8] - Kimi-Dev-72B能够自主在Docker中修补真实代码仓库,符合现实开发标准 [37] - MiniMax-M1已集成到MiniMax Chat中,提供不限量免费使用和业内最低价API [4][28] 行业影响 - MiniMax采取开放策略,新模型保持免费使用并以低价提供API,性价比高于DeepSeek-R1 [28][31] - 月之暗面计划扩展Kimi-Dev-72B功能,探索与IDE、版本控制系统和CI/CD流水线的深度集成 [48] - 大模型厂商同日发布新模型,显示行业竞争加剧,技术迭代速度加快 [1]
性能比肩DeepSeek-R1,MiniMax仅花380万训出推理大模型性价比新王|开源
量子位· 2025-06-17 09:03
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 国产推理大模型又有重磅选手。 MiniMax开源 MiniMax-M1 ,迅速引起热议。 这个模型有多猛?直接上数据: MiniMax团队透露,只用了3周时间、512块H800 GPU就完成强化学习训练阶段,算力租用成本仅 53.47万美元 (约383.9万元)。 不仅如此,在多个基准测试上MiniMax-M1的表现可比或超越DeepSeek-R1、Qwen3等多个开源模型,在工具使用和部分软件工程等复杂任 务上甚至超越了OpenAI o3和Claude 4 Opus。 MiniMax-M1实战表现如何?官方给出了一句话生成迷宫小游戏的Demo。 创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫,并逐步可视化 A* 算法的求解过程。使用画布和动画,使其具有视觉吸引 力。 目前模型权重已可在HuggingFace下载,技术报告同步公开。 原生支持100万token的输入长度,是DeepSeek R1的约8倍。 同时支持8万输出token,超过Gemini 2.5 Pro的6.4万,成为 世界最长输出 。 生成10万token时,推理算力只需要DeepSe ...