Workflow
大语言模型
icon
搜索文档
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
机器之心· 2025-06-18 17:34
大语言模型在竞技编程领域的表现评估 核心观点 - 当前前沿大语言模型(如GPT-4、Gemini等)在竞技编程领域与人类大师级选手仍存在显著差距,尤其在复杂算法推理和边界情况分析上表现欠佳 [1][12][18] - 模型的高分更多依赖外部工具和多次尝试(pass@k),而非真实推理能力 [3][17][34] - 在知识密集型和逻辑密集型问题上表现较好,但在观察密集型和分类讨论问题上表现较差 [20][22][24] 模型性能表现 - **整体表现**:表现最好的模型o4-mini-high在中等难度题上pass@1仅为53.5%,高难度题完全无法通过(0%),而人类专家可稳定发挥 [12][15] - **排行榜数据**: - o4-mini-high:中等难度53.5%,简单83.1%,评分2116(前1.5%) [15] - Gemini 2.5 Pro:中等25.4%,简单70.4%,评分1992 [15] - DeepSeek R1:中等9.9%,简单56.3%,评分1442 [15] 不同算法范式表现差异 - **优势领域**: - 知识密集型(线段树、图论等):模型可通过拼接训练数据中的模板解决 [22] - 逻辑密集型(动态规划、二分搜索等):受益于记忆化脚手架代码 [23] - **劣势领域**: - 观察密集型(博弈论、贪心算法等):评分骤降至1500以下,缺乏新颖见解能力 [24] - 分类讨论:所有模型评分低于1500,无法处理边界情况 [25] - 交互式问题:o4-mini-high评分骤降至1500,其他模型表现更差 [26] 失败原因分析 - **主要错误类型**: - 概念性错误:o3-mini比人类多犯34个算法逻辑错误 [28][30] - 实现优势:比人类少犯25个实现逻辑错误,几乎无运行时错误 [30] - 交互问题异常:80%提交被判"空闲时间超限" [31] 工具与多次尝试的影响 - **pass@k效果**:o4-mini-medium评分从pass@1的1793升至pass@10的2334,但仍低于工具加持的2719分 [34][36] - **推理能力效果**: - 组合数学提升最大(DeepSeek R1比V3高1400分) [41] - 知识密集型提升显著(如线段树问题+700分) [42] - 观察密集型提升有限(博弈论提升最低或负增长) [42] 评测基准设计 - **LiveCodeBench Pro**:包含584道来自Codeforces、ICPC等顶级赛事的高质量题目,由奥赛选手标注算法类别 [6][7] - **研究团队**:包含ICPC世界总决赛参赛者等专业背景 [5]
刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
机器之心· 2025-06-18 09:24
Gemini 2.5系列模型更新 - 谷歌CEO Sundar Pichai宣布新推出的Gemini 2.5 Flash-Lite是目前性价比最高的2.5系列模型 [1] - 2.5 Flash-Lite定位为适合量大且注重成本效率的任务,2.5 Pro适合编程和高复杂度任务,2.5 Flash适合需要较快速度的日常任务 [2] - 2.5 Pro和2.5 Flash已发布稳定版,2.5 Flash-Lite开启预览 [3] 模型功能与性能 - 2.5 Flash-Lite支持多模态输入和100万token上下文,可通过API参数动态控制思考预算,默认关闭思考功能 [4] - 2.5 Flash-Lite在AIME 2025和FACTS Grounding等少量指标上表现优于其他版本 [5] - 2.5 Flash-Lite整体性能低于2.5 Flash,开启思考功能的版本表现更强 [5] 定价策略 - 2.5 Flash-Lite定价为每百万输入/输出token 0.1/0.4美元,音频输入为0.5美元 [8] - 2.5 Flash价格为每百万输入/输出token 0.3/2.5美元,音频输入为1美元 [8] - 2.5 Pro价格最高,为每百万输入/输出token 1.25/10美元 [8] 应用案例 - 2.5 Flash-Lite在Google AI Studio和Vertex AI上线预览版 [9] - 开发者Simon Willison测试显示2.5 Flash-Lite生成SVG成本最低(0.0829美分) [16] - 2.5 Flash-Lite在转录Twitter Space录音时出现错误,而2.5 Pro效果最佳 [17] - 2.5 Flash-Lite可在17.1秒内完成贪吃蛇游戏编程任务 [21] 技术特性 - Gemini系列组成了当前LLM的佩雷托前沿,是性价比最高的系列模型 [10] - 报告提到2.5 Pro在游戏过程中出现"智能体恐慌"现象 [12] - 开发者使用2.5 Pro革新交互式3D设计,可通过自然语言生成对象和场景 [18]
OpenAI以65亿美元收购Jony Ive的io背后,软硬件结合的AI原生硬件公司正在崛起
36氪· 2025-06-18 07:51
行业动态 - OpenAI以65亿美元收购前苹果硬件设计负责人Jony Ive的公司io 目标是为OpenAI打造一系列硬件产品 [1] - OpenAI前CTO创立的新公司Thinking Machines估值达90亿美元 其首款产品为专为AI训练设计的"手动调参仪表盘"硬件 [1] - 软硬件结合的AI终端产品是科技公司重点发展方向 早期产品如Siri和小度音箱因AI"智力"不足导致交互体验较差 [1] AI原生硬件发展挑战 - 大语言模型推动人机交互从GUI向多模态转变 但第一波AI原生硬件产品市场接受度低 [2] - AI Pin采用激光墨水显示屏和手势交互 因学习成本过高导致融资2.4亿美元的公司在2025年被惠普以1.16亿美元收购 [4] - VR/AR眼镜经过10年市场教育 2024年出货量仅600-700万部 远低于智能手机的亿级规模 [4] - 部分AI硬件功能低频且易用性差 售价过高(如AI Pin 699美元 Vision Pro 3499美元)制约渗透率 [4][5] - 硅谷企业面临供应链劣势 硬件迭代慢且成本高 中国珠三角的产业集群提供更高效低成本的制造环境 [4][5] 第二批AI硬件创新方向 - 专注明确场景的产品获得更好发展 如会议录音/转写类硬件契合大模型语音处理能力 [8] - 教育领域代表产品包括科大讯飞AI学习机 猿辅导小猿学习机 大疆RoboMaster教育机器人 [9] - 个人陪伴机器人出现差异化设计 如可移动的Yonbo对比固定形态的ElliQ [12] - 医疗健康领域创新包括BioLink Systems的可消化设备 能实时采集体内健康数据 [12] - 华人创业公司plaude去年营收达7000万美元 讯飞AI耳机用户突破100万且年营收翻倍 [10] 中国AI硬件产业优势 - 中国具备全球最完善的AI硬件产业链 涵盖消费电子 机器人 智能汽车三大领域 [15] - 技术生态支持包括开源大模型(Qwen 3 4B) VLA模型 以及各领域数据资源 [15] - 2024年中国智能手机出货量占全球23.4% 为AI硬件转型提供巨大潜在市场 [16] - 华为 小米等品牌证明中国市场足以支撑硬件企业成长 AI硬件已建立教育 企业等基础市场 [16] 未来发展趋势 - AI操作系统成为关键 需要适配AI模型的计算管理需求 Meta Google OpenAI等公司正积极布局 [13][14] - 多模态交互方式将逐步替代智能手机和平板 但需降低用户学习成本 [12][13]
MiniMax开源首个推理模型,456B参数,性能超DeepSeek-R1,技术报告公开
36氪· 2025-06-17 16:15
智东西6月17日报道,今日凌晨,"大模型六小虎"之一MiniMax发布全球首个开源大规模混合架构的推理模型MiniMax-M1,并官宣了为期五天的连更计 划。 M1参数规模为4560亿,每个token激活459亿参数,原生支持100万上下文输入以及业内最长的8万token推理输出,输入长度与闭源模型谷歌Gemini 2.5 Pro 一致,是DeepSeek-R1的8倍。此外,研究人员训练了两个版本的MiniMax-M1模型,其思考预算分别为40k和80k。 MiniMax在标准基准测试集上的对比显示,在复杂的软件工程、工具使用和长上下文任务方面,MiniMax-M1优于DeepSeek-R1和Qwen3-235B等开源模 型。 其博客提到,在M1的整个强化学习阶段,研究人员使用512块H800训练了三周,租赁成本为53.74万美金(折合人民币约385.9万元),相比其一开始的成 本预期少了一个数量级。 M1在MiniMax APP和Web上支持不限量免费使用。API价格方面,第一档0-32k的输入长度时,输入0.8元/百万token, 输出8元/百万token;第二档32k- 128k的输入长度时,输入1.2 ...
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
量子位· 2025-06-17 15:41
核心观点 - 当前数学领域的数据生成方法局限于单个问题的改写或变换,缺乏对题目间内在关联性的挖掘 [1] - MathFusion通过指令融合增强大语言模型解决数学问题的能力,打破传统局限 [1] - 仅使用45K合成指令,MathFusion在多个基准测试中平均准确率提升18.0个百分点,展现卓越数据效率和性能 [2] 融合策略 - 顺序融合(Sequential Fusion):将两个问题串联,前一个问题的答案作为后一个问题的输入条件,模拟多步骤问题解决过程 [5] - 并列融合(Parallel Fusion):将两个相似问题融合,识别并融合数学概念后提出新问题 [6] - 条件融合(Conditional Fusion):创造需要对两个问题的解进行比较和选择的问题场景 [6] - 三种策略结合生成全新融合数据集MathFusionQA,通过embedding search识别适合融合的问题对并利用GPT-4o-mini生成解答 [6] 实验结果 - MathFusion在DeepSeekMath-7B、Mistral-7B、Llama3-8B等模型上实现稳定性能提升 [9] - 组合融合策略优于单一策略,在DeepSeekMath-7B上平均提升3.1分,Llama3-8B提升4.9分,Mistral-7B提升7.5分 [10] - 在out-of-domain基准测试中超越标准模型,展现强大泛化能力 [11] - MathFusion-DSMath-7B使用195K样本时,在MATH测试集准确率达58.2%,GSM8K达79.5%,College达40.3% [9] 数据特性与扩展性 - 融合后问题指令遵循难度(IFD)更高,模型性能随数据量呈对数增长 [13] - MathFusionQA与DART-Math数据集结合使用时性能可进一步提升,显示问题融合与挖掘难题思路互补 [13] - t-SNE可视化显示融合问题在特征空间分布更均匀广泛 [13] - 当前验证限于GSM8K、MATH等简单数学问题及short cot solution数据集,需扩展至更复杂领域 [12]
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 10:32
大模型技术突破 - MiniMax开源其首个推理模型M1,原生支持百万级上下文长度,在推理效率、计算成本和复杂任务能力上展现出与DeepSeek R1、Qwen3-235B等模型不同的技术路径与性能表现[1][2] - M1是全球首个开放权重的大规模混合注意力推理模型,凭借混合门控专家架构(Mixture-of-Experts,MoE)与Lightning Attention的结合,在性能表现和推理效率方面实现显著突破[4] - M1具备4560亿参数规模,其中每个token激活约459亿参数,原生支持最长100万tokens的上下文输入,是DeepSeek R1所支持长度的8倍[7] 性能与效率优势 - 在生成长度为10万tokens的场景下,MiniMax-M1的计算量(FLOPs)仅为DeepSeek R1的25%,在长文本处理任务中具备显著优势[7] - 完整强化学习训练在512块H800 GPU上仅耗时三周,成本控制在53.47万美元,展现极高效率与性价比[11] - 在标准基准测试中,MiniMax-M1在复杂软件工程、工具使用与长上下文任务等方面表现突出,整体表现已达到甚至超越DeepSeek-R1与Qwen3-235B等代表性开源模型[12] 技术创新 - 采用大规模强化学习(RL)方式,在数学推理、沙盒环境下的软件工程等多样任务中进行了全面优化[9] - 提出名为CISPO的创新型强化学习算法,针对重要性采样权重而非token更新进行裁剪,有效提升学习稳定性与性能表现,在对比实验中优于现有主流RL变体[10] - 训练两个版本分别设定40K与80K的思维预算(thinking budget),其中40K版本为中间训练阶段的成果[12] 应用与部署 - MiniMax-M1是开源即上线,可直接进入官网体验[13][15] - 模型在不到30秒的时间可完成技术报告里的公式、表格翻译[17] - 模型现已支持GitHub和Hugging Face平台,并兼容vILN和Transformers框架[19]
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
机器之心· 2025-06-17 08:10
DeepSeek-R1(0528)模型升级与性能表现 - 核心观点:DeepSeek-R1(0528)在开源模型中表现突出,多项基准测试排名靠前,尤其在编程领域与闭源模型性能相当 [1][2][3][4] 模型升级与功能改进 - DeepSeek-R1(0528)为最新升级版本,改进基准测试性能,减少幻觉,支持JSON输出和函数调用 [3] - 模型及权重已公开,采用MIT开源协议 [2][8] LMArena基准测试排名 - 在文本基准测试(Text)中整体排名第6,开放模型中排名第一 [5] - 细分领域表现: - 硬提示词(Hard Prompt)排名第4 - 编程(Coding)排名第2 - 数学(Math)排名第5 - 创意性写作(Creative Writing)排名第6 - 指令遵循(Instruction Following)排名第9 - 更长查询(Longer Query)排名第8 - 多轮对话(Multi-Turn)排名第7 [6] WebDev Arena编程竞赛表现 - 与Gemini-2.5-Pro-Preview-06-05、Claude Opus 4(20250514)并列第一,分数超过Claude Opus 4 [7] - WebDev Arena评分: - Gemini-2.5-Pro-Preview-06-05:1433.16(±13.78/-16.08) - DeepSeek-R1(0528):1408.84(±16.75/-15.04) - Claude Opus 4(20250514):1405.51(±12.56/-12.44) [8] 行业影响与用户反馈 - DeepSeek-R1(0528)在AI编程领域与Claude Opus性能相当,被视为开源AI的关键里程碑 [10] - 模型在完全开放的MIT协议下提供领先性能,可能影响更广泛的编程领域 [10] - 实际用户体验仍需更多验证,以确认是否媲美闭源模型 [10]
AI投研应用系列之二:从大模型到智能体,扣子Coze在金融投研中的应用
太平洋证券· 2025-06-15 14:51
根据研报内容,总结如下: 量化模型与构建方式 1. 模型名称:报告解读智能体;模型构建思路:利用Coze平台构建能够自动解读金融报告的智能体,通过插件获取报告内容并调用大模型进行分析[28];模型具体构建过程:在智能体编辑页面输入描述语句生成提示词,新建工作流编辑任务流程,使用文件读取插件提取文档内容及公式结构,配置大语言模型节点定义输出逻辑与格式规范[28][30];模型评价:能够准确解读报告内容并呈现重要公式,提升报告分析效率[31] 2. 模型名称:财务数据分析智能体;模型构建思路:构建能够从网页或插件获取财务数据并用大模型进行分析的智能体[35];模型具体构建过程:通过代码处理节点拼接网页URL,信息爬取节点实时获取财报数据,输入DeepSeek大模型节点进行综合分析[38],或通过新浪财经插件获取数据后输入大模型分析[45][47];模型评价:能够从多个维度生成财务分析和投资建议[39][48] 3. 模型名称:研报总结智能体;模型构建思路:构建能够爬取多篇策略研报并用大模型进行分析总结的智能体[52];模型具体构建过程:使用插件爬取html代码,循环节点处理多条内容,大模型节点提取相关内容并写入飞书多维表格[52][55],添加代码节点将JSON字符串转换为JavaScript对象[69];模型评价:实现用自然语言从html代码中提取内容,节省编写代码的工作[69] 量化因子与构建方式 1. 因子名称:财务分析因子;因子构建思路:从财务数据中提取关键指标作为因子[35];因子具体构建过程:通过爬取或插件获取归母净利润、营业总收入、营业成本、净利润、扣非净利润、股东权益合计、商誉、经营现金流量净额、基本每股收益、每股净资产、每股现金流、净资产收益率、总资产报酬率、毛利率等指标[36] 2. 因子名称:研报分析因子;因子构建思路:从策略研报中提取关键信息作为因子[52];因子具体构建过程:通过爬取获取报告标题、内容、机构名称和链接等信息[55],用大模型提取相关内容并分析总结[52] 模型的回测效果 1. 报告解读智能体,能够准确解读量化领域英文文献并呈现重要公式[31] 2. 财务数据分析智能体,能够从盈利能力、偿债能力、运营能力等维度生成分析[39][48] 3. 研报总结智能体,能够从多篇策略研报中提取关键信息并生成总结[52][60] 因子的回测效果 1. 财务分析因子,包含14个关键财务指标[36] 2. 研报分析因子,包含标题、内容、机构名称和链接等关键信息[55]
本周精华总结:谷歌AI的进阶之路:从技术积累到发现新知的未来探索
老徐抓AI趋势· 2025-06-15 11:41
谷歌AI技术发展历程 - 谷歌母公司Alphabet采用创新组织架构 将Google、DeepMind、Isomorphic Labs等子公司独立运营 避免传统业务束缚创新业务 [1] - DeepMind创始人戴密斯·哈萨比斯具有国际象棋背景和剑桥计算机专业学历 团队开发出AlphaGo击败围棋大师李世石 AlphaFold预测蛋白质结构获诺贝尔化学奖 [1] 谷歌AI技术优势 - 谷歌在大语言模型(Transformer架构)领域技术积累深厚 已开始向超越OpenAI方向发展 [2] - 谷歌AI具备"发现新知识"的创新能力 如AlphaGo第37手新招 AlphaFold解开数亿蛋白质结构 AlphaProof证明数学定理 AlphaEvolve优化50多年数学运算问题 [2] - 谷歌与特斯拉是最接近实现"世界模型"的公司 分别依托YouTube视频数据和车辆摄像头现实数据 多维数据训练远超单一文本数据 [3] 谷歌AI战略方向 - 谷歌早期因担心AI错误率影响用户体验未快速推向市场 OpenAI的ChatGPT爆红验证市场需求后迅速跟进 [2] - 谷歌未来目标是实现通用人工智能(AGI) DeepMind团队定义AGI为机器具备人脑般的通用智能能力 正在逐步弥补"认知漏洞"向真正通用智能靠近 [2] - 谷歌AI在智能发现、模型完善和通用智能方向具备突破潜力 有望保持行业领先地位 [3]
ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
机器之心· 2025-06-13 23:45
长文本建模的挑战与GCA的创新 - 长文本建模面临两大核心挑战:主流LLMs的Transformers架构存在平方复杂度及显存开销线性增长问题,以及full-attention外推能力有限难以泛化到超长输入[1] - 高效处理长上下文不仅关乎工业界降本增效,更涉及AGI核心问题——构建具有永久记忆的智能体,这将成为大语言模型公司的数据护城河[1] - 蚂蚁团队提出GCA机制,模拟人类开卷考试模式,通过因果检索注意力实现端到端学习,仅关注相关历史片段,显著降低显存开销[2] GCA技术原理与架构 - GCA采用两阶段注意力机制:分组注意力收集各chunk信息,chunk-level融合通过softmax加权整合关键信息用于预测[14][15] - 架构结合GCA与滑动窗口注意力,前者负责长程检索后者处理短程信息,通过Triton kernel实现优化显存管理[15] - 与传统检索方式相比,GCA让检索分参与前向运算获得梯度,实现检索模块的端到端学习[13] 实验性能表现 - 128M模型实现1000倍长度泛化,16K预训练模型在16M上下文passkey retrieval达到100%准确率[5][17] - 训练开销随序列长度呈线性增长,推理显存接近常数且速度持平Transformers,CPU卸载策略使48K上下文显存仅增加1.62倍[17][20] - 在arXiv-math数据中展示语义级检索能力,能识别引理和变量声明的逻辑相关性[21] 行业技术对比 - 相比滑动窗口注意力牺牲长程信息、温度调节法泛化有限等现有方案,GCA突破性地实现有效利用超长上文信息[7][8] - 与DeepSeek的NSA形成技术互补:GCA侧重长度泛化,NSA优化稀疏attention,后续HSA工作融合两者优势[5] 开源与学术影响 - 技术实现已通过Triton kernel全部开源,论文被ICML 2025接收[3][11] - 尽管实验规模较小,但为机器永久记忆机制提供新思路,首次实现16M长度完美信息检索[23]