大语言模型

搜索文档
中泰资管天团 | 李玉刚:挑战共识、提出有价值假说的能力,很难被AI替代
中泰证券资管· 2025-06-19 16:16
人类最伟大的能力,不是知道答案,而是永远保持提问与重构答案的可能。 L. G. Valiant 在规则明确、数据丰富的任务中AI已展现出越来越强大的超人类能力。比如OpenAI宣称,GPT-4参加了多 种基准考试,包括美国律师资格考试、法学院入学考试LSAT、SAT数学部分和证据性阅读与写作部分考 试等。在这些测试中,GPT-4得分高于88%的人类应试者。 AI技术的快速进展和成熟,无疑从很多方面影响和改变着我们的生活和工作方式,尤其是在 整合共识和 主流叙事、优化"已知"领域的运行效率 方面,现有的AI模型已体现出强大的能力。 相比与当前的AI,人类的价值和竞争优势体现在哪里?个人赞同以下观点, 保持对异常现象的好奇心, 勇于挑战共识,提出有价值的假说,仍是人类最值得珍视的能力。 AI的优势:高效整合历史经验和共识, 优化"已知"领域的运行效率 当前以大语言模型(LLMs)为代表的AI模型,仍然是一个 数据和计算驱动,基于历史频率、相关性及均 值的统计归纳系统 。它的"智能",是基于"同一事物可以通过无限种方式被陈述、表达和表征"这一事 实。其能力源于语言表征的泛化能力,即能够将一种表达方式转化为另一种表达 ...
从敦煌到大足 两大世界文化遗产首次在重庆联展
中国新闻网· 2025-06-19 09:50
展览概况 - 展览主题为"从敦煌到大足——石窟艺术中国化流变展",首次联展敦煌莫高窟与大足石刻两大世界文化遗产 [1] - 展览共呈现200余件展品,包括国宝级文物2件、一级文物15件、二级文物10件、三级文物8件,复制洞窟6座 [1] - 展览模式为"原迹重现+当代诠释",搭建"北敦煌·南大足"对话舞台 [1] 技术应用 - 采用数字孪生技术整窟复制敦煌莫高窟第158窟、第3窟、第45窟、第17窟和大足石刻宝顶山小佛湾第9号毗卢庵、大足石刻北山第245号窟 [1] - 打造沉浸式体验空间,借助AI技术与交互科技实现"点亮千手观音"光影互动装置,游客可通过电子屏合掌实时生成图像参与观音贴金体验 [1] - 运用大语言模型实现北魏敦煌禅定佛像与南宋大足释迦牟尼佛像的跨时空"对话" [1] 合作机构与展期 - 由重庆中国三峡博物馆联合敦煌研究院、大足石刻研究院等9家单位共同策划 [2] - 展览将持续至2026年1月5日 [2]
MiniMax最快今年赴港上市:新发布的M1推理模型直接叫板DeepSeek-R1与GPT-4
IPO早知道· 2025-06-18 21:10
公司上市计划 - MiniMax最快将于2024年赴港上市 目前与中介机构就上市事宜进行沟通但无具体时间表 [2][3] - 公司成立于2021年12月 当前估值约30亿美元 投资方包括云启资本、IDG资本、高瓴创投、明势创投、米哈游、腾讯、阿里等 [4][7] 技术研发进展 - 2025年1月发布并开源01系列模型 包含Text-01语言大模型和VL-01视觉多模态模型 采用线性注意力机制可处理400万token输入 [4] - 语音大模型规模全球Top 2 支持32种语言 视频模型调用量全球领先 支持文生视频/图生视频/主体参考等功能 [5] - 6月17日发布M1推理模型 为全球首个开源混合架构推理模型 复杂场景能力超过国内闭源模型 成本仅为GPT-4的0.5% [8][9] - 6月18日发布Hailuo 02视频生成模型 打破全球视频模型效果成本纪录 [10] 产品与市场表现 - 推出海螺AI、MiniMax Audio、星野Talkie等多款AI产品 在全球范围内具有一定欢迎度 [6] - 自6月17日起连续5天发布新模型 包括M1推理模型和Hailuo 02视频模型等 [1][8][10] 行业动态 - 国内大模型领域头部企业之一 与智谱AI、面壁智能等并称"大模型六小龙" [2][15]
MiniMax追着DeepSeek打
经济观察网· 2025-06-18 19:32
模型技术规格 - MiniMax M1模型支持100万个token的上下文长度,是DeepSeek R1(12.8万Token)的8倍,仅次于谷歌Gemini 2.5 Pro [1] - MiniMax M1总参数量为4560亿,每个token激活459亿参数,而DeepSeek R1总参数量6710亿但每个token仅激活370亿参数 [1] - 采用混合专家(MoE)架构,与DeepSeek R1相同 [1] 性能与成本优势 - 生成10万个token时仅消耗25%的浮点运算,64000个token推理任务计算能力需求不到DeepSeek R1一半 [2] - 强化学习阶段仅使用512块H800 GPU,耗时3周,成本53.5万美元,比预期低一个数量级 [2] - 核心技术包括线性注意力机制(Lightning Attention)和强化学习算法CISPO,后者通过裁剪采样权重提升效率 [2] 商业化定价策略 - API服务采用分级计费:0-32k Token档输入0.8元/百万Token,输出8元/百万Token;32k-128k档输入1.2元/百万Token,输出16元/百万Token;128k-1M档输入2.4元/百万Token,输出24元/百万Token [3] - 前两档定价低于DeepSeek R1(输入3.95元/百万Token,输出15.4元/百万Token),第三档为独有超长文本服务 [3] 行业动态与开源计划 - 宣布未来5天内每天发布一项新产品或新技术 [1] - 模型代码和权重已在Hugging Face和GitHub开源,支持透明检查与本地部署 [3] - DeepSeek R1曾以500-600万美元GPU成本训练出对标OpenAI o1的模型,引发行业争议 [2]
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
机器之心· 2025-06-18 17:34
大语言模型在竞技编程领域的表现评估 核心观点 - 当前前沿大语言模型(如GPT-4、Gemini等)在竞技编程领域与人类大师级选手仍存在显著差距,尤其在复杂算法推理和边界情况分析上表现欠佳 [1][12][18] - 模型的高分更多依赖外部工具和多次尝试(pass@k),而非真实推理能力 [3][17][34] - 在知识密集型和逻辑密集型问题上表现较好,但在观察密集型和分类讨论问题上表现较差 [20][22][24] 模型性能表现 - **整体表现**:表现最好的模型o4-mini-high在中等难度题上pass@1仅为53.5%,高难度题完全无法通过(0%),而人类专家可稳定发挥 [12][15] - **排行榜数据**: - o4-mini-high:中等难度53.5%,简单83.1%,评分2116(前1.5%) [15] - Gemini 2.5 Pro:中等25.4%,简单70.4%,评分1992 [15] - DeepSeek R1:中等9.9%,简单56.3%,评分1442 [15] 不同算法范式表现差异 - **优势领域**: - 知识密集型(线段树、图论等):模型可通过拼接训练数据中的模板解决 [22] - 逻辑密集型(动态规划、二分搜索等):受益于记忆化脚手架代码 [23] - **劣势领域**: - 观察密集型(博弈论、贪心算法等):评分骤降至1500以下,缺乏新颖见解能力 [24] - 分类讨论:所有模型评分低于1500,无法处理边界情况 [25] - 交互式问题:o4-mini-high评分骤降至1500,其他模型表现更差 [26] 失败原因分析 - **主要错误类型**: - 概念性错误:o3-mini比人类多犯34个算法逻辑错误 [28][30] - 实现优势:比人类少犯25个实现逻辑错误,几乎无运行时错误 [30] - 交互问题异常:80%提交被判"空闲时间超限" [31] 工具与多次尝试的影响 - **pass@k效果**:o4-mini-medium评分从pass@1的1793升至pass@10的2334,但仍低于工具加持的2719分 [34][36] - **推理能力效果**: - 组合数学提升最大(DeepSeek R1比V3高1400分) [41] - 知识密集型提升显著(如线段树问题+700分) [42] - 观察密集型提升有限(博弈论提升最低或负增长) [42] 评测基准设计 - **LiveCodeBench Pro**:包含584道来自Codeforces、ICPC等顶级赛事的高质量题目,由奥赛选手标注算法类别 [6][7] - **研究团队**:包含ICPC世界总决赛参赛者等专业背景 [5]
刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
机器之心· 2025-06-18 09:24
Gemini 2.5系列模型更新 - 谷歌CEO Sundar Pichai宣布新推出的Gemini 2.5 Flash-Lite是目前性价比最高的2.5系列模型 [1] - 2.5 Flash-Lite定位为适合量大且注重成本效率的任务,2.5 Pro适合编程和高复杂度任务,2.5 Flash适合需要较快速度的日常任务 [2] - 2.5 Pro和2.5 Flash已发布稳定版,2.5 Flash-Lite开启预览 [3] 模型功能与性能 - 2.5 Flash-Lite支持多模态输入和100万token上下文,可通过API参数动态控制思考预算,默认关闭思考功能 [4] - 2.5 Flash-Lite在AIME 2025和FACTS Grounding等少量指标上表现优于其他版本 [5] - 2.5 Flash-Lite整体性能低于2.5 Flash,开启思考功能的版本表现更强 [5] 定价策略 - 2.5 Flash-Lite定价为每百万输入/输出token 0.1/0.4美元,音频输入为0.5美元 [8] - 2.5 Flash价格为每百万输入/输出token 0.3/2.5美元,音频输入为1美元 [8] - 2.5 Pro价格最高,为每百万输入/输出token 1.25/10美元 [8] 应用案例 - 2.5 Flash-Lite在Google AI Studio和Vertex AI上线预览版 [9] - 开发者Simon Willison测试显示2.5 Flash-Lite生成SVG成本最低(0.0829美分) [16] - 2.5 Flash-Lite在转录Twitter Space录音时出现错误,而2.5 Pro效果最佳 [17] - 2.5 Flash-Lite可在17.1秒内完成贪吃蛇游戏编程任务 [21] 技术特性 - Gemini系列组成了当前LLM的佩雷托前沿,是性价比最高的系列模型 [10] - 报告提到2.5 Pro在游戏过程中出现"智能体恐慌"现象 [12] - 开发者使用2.5 Pro革新交互式3D设计,可通过自然语言生成对象和场景 [18]
OpenAI以65亿美元收购Jony Ive的io背后,软硬件结合的AI原生硬件公司正在崛起
36氪· 2025-06-18 07:51
行业动态 - OpenAI以65亿美元收购前苹果硬件设计负责人Jony Ive的公司io 目标是为OpenAI打造一系列硬件产品 [1] - OpenAI前CTO创立的新公司Thinking Machines估值达90亿美元 其首款产品为专为AI训练设计的"手动调参仪表盘"硬件 [1] - 软硬件结合的AI终端产品是科技公司重点发展方向 早期产品如Siri和小度音箱因AI"智力"不足导致交互体验较差 [1] AI原生硬件发展挑战 - 大语言模型推动人机交互从GUI向多模态转变 但第一波AI原生硬件产品市场接受度低 [2] - AI Pin采用激光墨水显示屏和手势交互 因学习成本过高导致融资2.4亿美元的公司在2025年被惠普以1.16亿美元收购 [4] - VR/AR眼镜经过10年市场教育 2024年出货量仅600-700万部 远低于智能手机的亿级规模 [4] - 部分AI硬件功能低频且易用性差 售价过高(如AI Pin 699美元 Vision Pro 3499美元)制约渗透率 [4][5] - 硅谷企业面临供应链劣势 硬件迭代慢且成本高 中国珠三角的产业集群提供更高效低成本的制造环境 [4][5] 第二批AI硬件创新方向 - 专注明确场景的产品获得更好发展 如会议录音/转写类硬件契合大模型语音处理能力 [8] - 教育领域代表产品包括科大讯飞AI学习机 猿辅导小猿学习机 大疆RoboMaster教育机器人 [9] - 个人陪伴机器人出现差异化设计 如可移动的Yonbo对比固定形态的ElliQ [12] - 医疗健康领域创新包括BioLink Systems的可消化设备 能实时采集体内健康数据 [12] - 华人创业公司plaude去年营收达7000万美元 讯飞AI耳机用户突破100万且年营收翻倍 [10] 中国AI硬件产业优势 - 中国具备全球最完善的AI硬件产业链 涵盖消费电子 机器人 智能汽车三大领域 [15] - 技术生态支持包括开源大模型(Qwen 3 4B) VLA模型 以及各领域数据资源 [15] - 2024年中国智能手机出货量占全球23.4% 为AI硬件转型提供巨大潜在市场 [16] - 华为 小米等品牌证明中国市场足以支撑硬件企业成长 AI硬件已建立教育 企业等基础市场 [16] 未来发展趋势 - AI操作系统成为关键 需要适配AI模型的计算管理需求 Meta Google OpenAI等公司正积极布局 [13][14] - 多模态交互方式将逐步替代智能手机和平板 但需降低用户学习成本 [12][13]
MiniMax开源首个推理模型,456B参数,性能超DeepSeek-R1,技术报告公开
36氪· 2025-06-17 16:15
智东西6月17日报道,今日凌晨,"大模型六小虎"之一MiniMax发布全球首个开源大规模混合架构的推理模型MiniMax-M1,并官宣了为期五天的连更计 划。 M1参数规模为4560亿,每个token激活459亿参数,原生支持100万上下文输入以及业内最长的8万token推理输出,输入长度与闭源模型谷歌Gemini 2.5 Pro 一致,是DeepSeek-R1的8倍。此外,研究人员训练了两个版本的MiniMax-M1模型,其思考预算分别为40k和80k。 MiniMax在标准基准测试集上的对比显示,在复杂的软件工程、工具使用和长上下文任务方面,MiniMax-M1优于DeepSeek-R1和Qwen3-235B等开源模 型。 其博客提到,在M1的整个强化学习阶段,研究人员使用512块H800训练了三周,租赁成本为53.74万美金(折合人民币约385.9万元),相比其一开始的成 本预期少了一个数量级。 M1在MiniMax APP和Web上支持不限量免费使用。API价格方面,第一档0-32k的输入长度时,输入0.8元/百万token, 输出8元/百万token;第二档32k- 128k的输入长度时,输入1.2 ...
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
量子位· 2025-06-17 15:41
核心观点 - 当前数学领域的数据生成方法局限于单个问题的改写或变换,缺乏对题目间内在关联性的挖掘 [1] - MathFusion通过指令融合增强大语言模型解决数学问题的能力,打破传统局限 [1] - 仅使用45K合成指令,MathFusion在多个基准测试中平均准确率提升18.0个百分点,展现卓越数据效率和性能 [2] 融合策略 - 顺序融合(Sequential Fusion):将两个问题串联,前一个问题的答案作为后一个问题的输入条件,模拟多步骤问题解决过程 [5] - 并列融合(Parallel Fusion):将两个相似问题融合,识别并融合数学概念后提出新问题 [6] - 条件融合(Conditional Fusion):创造需要对两个问题的解进行比较和选择的问题场景 [6] - 三种策略结合生成全新融合数据集MathFusionQA,通过embedding search识别适合融合的问题对并利用GPT-4o-mini生成解答 [6] 实验结果 - MathFusion在DeepSeekMath-7B、Mistral-7B、Llama3-8B等模型上实现稳定性能提升 [9] - 组合融合策略优于单一策略,在DeepSeekMath-7B上平均提升3.1分,Llama3-8B提升4.9分,Mistral-7B提升7.5分 [10] - 在out-of-domain基准测试中超越标准模型,展现强大泛化能力 [11] - MathFusion-DSMath-7B使用195K样本时,在MATH测试集准确率达58.2%,GSM8K达79.5%,College达40.3% [9] 数据特性与扩展性 - 融合后问题指令遵循难度(IFD)更高,模型性能随数据量呈对数增长 [13] - MathFusionQA与DART-Math数据集结合使用时性能可进一步提升,显示问题融合与挖掘难题思路互补 [13] - t-SNE可视化显示融合问题在特征空间分布更均匀广泛 [13] - 当前验证限于GSM8K、MATH等简单数学问题及short cot solution数据集,需扩展至更复杂领域 [12]
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 10:32
大模型技术突破 - MiniMax开源其首个推理模型M1,原生支持百万级上下文长度,在推理效率、计算成本和复杂任务能力上展现出与DeepSeek R1、Qwen3-235B等模型不同的技术路径与性能表现[1][2] - M1是全球首个开放权重的大规模混合注意力推理模型,凭借混合门控专家架构(Mixture-of-Experts,MoE)与Lightning Attention的结合,在性能表现和推理效率方面实现显著突破[4] - M1具备4560亿参数规模,其中每个token激活约459亿参数,原生支持最长100万tokens的上下文输入,是DeepSeek R1所支持长度的8倍[7] 性能与效率优势 - 在生成长度为10万tokens的场景下,MiniMax-M1的计算量(FLOPs)仅为DeepSeek R1的25%,在长文本处理任务中具备显著优势[7] - 完整强化学习训练在512块H800 GPU上仅耗时三周,成本控制在53.47万美元,展现极高效率与性价比[11] - 在标准基准测试中,MiniMax-M1在复杂软件工程、工具使用与长上下文任务等方面表现突出,整体表现已达到甚至超越DeepSeek-R1与Qwen3-235B等代表性开源模型[12] 技术创新 - 采用大规模强化学习(RL)方式,在数学推理、沙盒环境下的软件工程等多样任务中进行了全面优化[9] - 提出名为CISPO的创新型强化学习算法,针对重要性采样权重而非token更新进行裁剪,有效提升学习稳定性与性能表现,在对比实验中优于现有主流RL变体[10] - 训练两个版本分别设定40K与80K的思维预算(thinking budget),其中40K版本为中间训练阶段的成果[12] 应用与部署 - MiniMax-M1是开源即上线,可直接进入官网体验[13][15] - 模型在不到30秒的时间可完成技术报告里的公式、表格翻译[17] - 模型现已支持GitHub和Hugging Face平台,并兼容vILN和Transformers框架[19]