Workflow
AI科技大本营
icon
搜索文档
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 10:32
大模型技术突破 - MiniMax开源其首个推理模型M1,原生支持百万级上下文长度,在推理效率、计算成本和复杂任务能力上展现出与DeepSeek R1、Qwen3-235B等模型不同的技术路径与性能表现[1][2] - M1是全球首个开放权重的大规模混合注意力推理模型,凭借混合门控专家架构(Mixture-of-Experts,MoE)与Lightning Attention的结合,在性能表现和推理效率方面实现显著突破[4] - M1具备4560亿参数规模,其中每个token激活约459亿参数,原生支持最长100万tokens的上下文输入,是DeepSeek R1所支持长度的8倍[7] 性能与效率优势 - 在生成长度为10万tokens的场景下,MiniMax-M1的计算量(FLOPs)仅为DeepSeek R1的25%,在长文本处理任务中具备显著优势[7] - 完整强化学习训练在512块H800 GPU上仅耗时三周,成本控制在53.47万美元,展现极高效率与性价比[11] - 在标准基准测试中,MiniMax-M1在复杂软件工程、工具使用与长上下文任务等方面表现突出,整体表现已达到甚至超越DeepSeek-R1与Qwen3-235B等代表性开源模型[12] 技术创新 - 采用大规模强化学习(RL)方式,在数学推理、沙盒环境下的软件工程等多样任务中进行了全面优化[9] - 提出名为CISPO的创新型强化学习算法,针对重要性采样权重而非token更新进行裁剪,有效提升学习稳定性与性能表现,在对比实验中优于现有主流RL变体[10] - 训练两个版本分别设定40K与80K的思维预算(thinking budget),其中40K版本为中间训练阶段的成果[12] 应用与部署 - MiniMax-M1是开源即上线,可直接进入官网体验[13][15] - 模型在不到30秒的时间可完成技术报告里的公式、表格翻译[17] - 模型现已支持GitHub和Hugging Face平台,并兼容vILN和Transformers框架[19]
AI 进化风向标,2025 全球产品经理大会首批议题曝光!
AI科技大本营· 2025-06-16 15:40
AI行业发展趋势 - AI领域正处于诞生"时代性公司"的关键时刻 模型、产品能力与用户需求间仍存在显著差距 产品团队将持续发挥关键作用[1] - AI正从效率工具演进为驱动新一代产品范式的核心力量 具备落地能力且能留住用户的AI产品将定义下一代领军企业[1] 2025全球产品经理大会概况 - 大会将于8月15-16日在北京威斯汀酒店举办 汇聚全球40多个行业的顶尖专家 围绕12大主题展开探讨[4] - 聚焦AI原生技术驱动的产品范式转移 首批演讲嘉宾将分享一线实践经验与深度思考[5][6] 重点演讲议题 技术架构创新 - 昆仑万维将解析"天工超级智能体"的5专家+1通用架构 展示多模态内容生成的突破性能力[7] - 网易伏羲将阐述智能体技术如何突破虚实边界 构建新型人机协作工作范式[23] - 光轮智能将探讨合成数据如何解决具身智能训练数据稀缺等关键难题[102] 产品设计革新 - 久痕科技将探讨GenAI时代更自然高效的交互路径 重塑传统GUI范式[13] - YouMind将分享如何让AI产品实现情感连接 从技术赋能走向用户长期陪伴[17] - 泰来科技将分析AI/Agentic产品的设计演进路线 应对传统产品逻辑失效的挑战[95] 行业应用实践 - WPS将分享服务6亿用户的AI办公应用生态构建经验 包括AI创作/阅读/知识库等模块[32] - 索云AI将解析AI Agent在制造业与教育出版领域的应用 推动产业效率跃迁[44] - 小猿AI已覆盖超100个学习场景 基于双引擎架构重构教育全场景的智能陪伴路径[106] 商业模式创新 - 《无人公司》作者将区分"AI+SaaS"与"全AI交付"路径 解析AI如何重构商业价值链[72] - 元象将分享AI原生互动娱乐产品Saylo的全球化实践 探讨跨文化产品打磨方法[55] - 支付宝将展示AI如何优化国民级APP的用户体验动线 实现体验与业务双增长[78] 参会嘉宾阵容 - 包括CSDN高级副总裁李建忠 前Instagram产品经理曲晓音 字节跳动扣子罗盘负责人于博等114位行业领袖[114] - 覆盖AI/AR软硬件 语音大模型 MaaS平台 AI+RPA自动化等多个前沿领域[114]
CSDN 创始人蒋涛:“码盲”消失,新程序员崛起
AI科技大本营· 2025-06-13 15:51
AI行业变革 - ChatGPT以17个月达到8亿用户成为史上增长最快的应用[7] - AI公司收入暴涨,Cursor成为最快突破5亿美金收入的SaaS公司[7] - DeepSeek登顶全球100多个国家,推动AI平权化[1][7] 三座技术霸权 - **算力霸权**:CUDA对中国禁运,华为推CANN、AMD推ROCm、Intel推oneAPI进行破局[8] - **模型霸权**:OpenAI封闭模式受质疑,DeepSeek和阿里巴巴开源打破垄断[9] - **数据霸权**:英文语料主导全球数据,需建立多元开放数据集(如欧洲LAION项目)[9] 开发者生态重构 - GitHub开发者数量达1.9亿,年增长20%[11] - AI Coding变革传统编程,手动代码工作将被AI替代[11] - "码盲"消失,产品经理可独立开发应用(如"小猫补光灯"案例)[12][13] - 超级程序员生产力提升10倍,Agent Engineer成稀缺人才[15] 中国AI机遇 - 硬件成本降低:50元BOM成本即可接入大模型能力(ESP32芯片案例)[17] - 制造业优势:3D打印技术结合AI,创业团队两年收入达2亿美金[17] - AI重写硬件与软件,推动"义乌小商品"智能化改造[17] 技术栈与全球化 - 从Global AI转向Local AI,满足各国数据自主需求[10] - 开源系统联合对抗技术霸权,构建本地化技术栈[8][9]
LeCun亲自官宣!Meta世界模型V-JEPA 2登场!仅用62小时机器人数据,就能实现零样本控制!
AI科技大本营· 2025-06-12 18:48
Meta发布V-JEPA 2世界模型 - 公司重磅发布V-JEPA 2(Video Joint Embedding Predictive Architecture 2)世界模型,旨在赋予机器更深层次的物理世界理解、预测及交互能力,向构建通用AI智能体迈出关键一步[1][3] - 该模型基于联合嵌入预测架构(JEPA)构建,由编码器和预测器两大组件组成,编码器捕捉视频输入的关键语义信息,预测器生成预测嵌入结果[11] - 模型在Hugging Face物理推理能力排行榜上位列第一,超过GPT-4o,在IntPhys 2、MVPBench、CausalVQA三个基准测试中分别达到56.4%、44.5%、38.99%的准确率[6][7] 技术架构与训练方法 - 训练分为两阶段:第一阶段使用超过100万小时视频和100万张图像进行无动作预训练,学习物体、人与环境的交互逻辑[9] - 第二阶段仅用62小时机器人数据进行动作条件训练,使模型具备可控性,在新物体拾取与放置任务中达成65%-80%的成功率[14][17] - 采用零样本迁移能力验证,在开源DROID数据集训练后直接部署实验室机器人,无需场景微调[15] 性能表现与行业影响 - 在Something-Something v2动作识别任务和Epic-Kitchens-100动作预测任务中创造SOTA纪录,与语言模型结合后在视频问答基准任务上实现领先性能[12] - 公司开放模型代码与权重检查点供研究及商业用途,推动开源社区生态建设[8] - 发布IntPhys 2、MVPBench、CausalVQA三项物理理解基准测试,当前模型准确率较人类85%-95%的水平仍有显著差距[23][24] 未来发展方向 - 当前模型局限在于单一时间尺度预测,下一步将开发分层式世界模型实现跨时空复杂规划[29] - 计划推进多模态建模能力,融合视觉、听觉、触觉等感知信息提升世界理解水平[30] - 该技术代表公司在高级机器智能(AMI)和物理世界AI智能体开发的重要进展[27]
揭秘夸克首个高考志愿大模型!蒸馏数百名人类专家经验、Agent 可完整生成志愿报告
AI科技大本营· 2025-06-12 17:06
高考志愿大模型发布 - 夸克发布国内首个高考志愿大模型,具备专家级决策能力,为考生提供精准、个性化的志愿填报服务 [1] - 同步上线"高考深度搜索"、"志愿报告"、"智能选志愿"三大核心功能 [1] 志愿报告功能 - 以Agent方式运行,提供个性化规划建议,涵盖冲稳保策略、志愿表、院校专业推荐等内容 [3] - 基于考生成绩、兴趣偏好、家庭背景和地域倾向等制定个性化任务规划 [3] - 采用"任务规划—执行—检查—反思"的链式推理流程,实现动态修正与智能迭代 [3] - 当考生倾向选择省内985院校时,模型会推荐适合的外省985高校 [3] 高考深度搜索功能 - 支持复杂查询,如"江苏物理组考生584分,性格内向,想找稳定工作" [4] - 将考生需求精细化拆解,每类需求对应定制化回答范式与要点 [4] 训练机制 - 以通义千问为基座,通过多阶段、高复杂度训练范式构建 [7] - 融合自监督语义建模、监督式对齐调优、专家判别价值引导的策略精化机制 [7] - 将数百名资深高考志愿规划师的沟通、决策过程结构化,提取上万条真实专家"推理链"转化为监督数据 [9] - 通过人类偏好强化学习(RLHF)精化策略层,构建闭环优化机制 [9] - 已完成数千份志愿报告的专家标注与打分,通过"人类挑刺+模型修正"方式持续优化 [9] 高考知识库 - 搭载国内最大的实时更新、结构严谨的高考知识库 [11] - 覆盖全国2900多所高校、近1600个本科专业,整合院校分数线、专业设置等核心教学信息 [11] - 对每个省份的高考政策及权威解读进行梳理、实时更新 [11] - 纳入高校毕业生就业相关信息、产业趋势规划、就业报告等数据 [11]
OpenAI 的阳谋与野心!「温和的奇点」背后
AI科技大本营· 2025-06-11 16:30
文章核心观点 - OpenAI首席执行官Sam Altman在《温和的奇点》中描绘AI发展已跨越"事件视界",过程比预期平稳,未来智慧与能源将空前充裕[1][3][21] - 现实商业策略与愿景存在矛盾:发布高性能o3-pro模型并发动价格战(降价80%-87%),同时与谷歌达成云合作,展现激进竞争态势[5][6][8] - AI发展路径存在"先安全后普及"的理想与"先扩张后治理"现实的冲突,权力集中与分散问题尚未解决[10][11][27] AI技术发展现状 - OpenAI新一代推理模型o3-pro性能超越谷歌Gemini 2.5 Pro和Anthropic Claude 4 Opus,Altman称其胜率表现难以置信[5] - ChatGPT单次查询能耗仅0.34瓦时(相当于烤箱运行1秒),耗水0.000085加仑(1/15茶匙),技术能效显著优化[3][23] - 2025年认知型智能体将改变编程范式,2026年出现新知洞察系统,2027年实用机器人或问世[19][20][21] 商业化战略 - 价格战策略:o3模型降价80%,o3-pro定价比o1-pro低87%,通过低价加速市场占领[6] - 基础设施布局:因不满微软数据中心建设进度,OpenAI转向与谷歌达成云服务合作[8] - 经济飞轮效应:AI创造的价值反哺资本投入,推动数据中心自动化建设,智能成本趋近电力成本[22][23] 行业影响预测 - 2030年代智慧与能源将极度充裕,个体生产力远超2020年水平,但社会结构变化可能滞后[21][23] - AI递归式自我完善已现雏形:科学家生产力提升1-2倍,AI加速自身研究可能实现"一月完成十年突破"[22] - 岗位替代与财富增长并存:行业消失将伴随全球财富激增,催生新社会政策讨论[12][23] 技术伦理与治理 - 核心矛盾:社交媒体算法已证明目标错位风险,但行业仍在安全未解决时加速普及[11][27] - 理想路径强调"对齐问题"优先,需确保AI系统符合人类长期目标,避免权力过度集中[10][27] - 社会适应力被寄予厚望:人类关心他人的特质被视为长期优势,但治理边界亟待全球讨论[23][27]
面壁MiniCPM4端侧模型发布:长文本推理 5 倍提速,0.5B 模型拿下新SOTA
AI科技大本营· 2025-06-10 17:31
模型发布 - 2025智源大会发布新一代端侧模型MiniCPM4 0 包含8B稀疏闪电版和0 5B版本 前者是首个原生稀疏模型 5%极高稀疏度实现端侧长文本处理能力 后者适配广泛终端场景 [1] - MiniCPM4 0-8B在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销实现性能比肩Qwen-3-8B 超越Gemma-3-12B [2][6] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现600 Token/s极速推理 [2] 性能突破 - 代号"前进四"的MiniCPM4 0实现长文本推理速度5倍常规加速 最高220倍加速(显存受限场景) 注意力机制采用高效双频换挡技术 长文本用稀疏 短文本用稠密 [4] - 在128K长文本场景下 MiniCPM4 0-8B仅需Qwen3-8B 1/4的缓存存储空间 量化版实现90%模型瘦身 性能保持稳健 [9] - 8B版本微调出MCP Client和MiniCPM4-Surve两个特定能力模型 后者在内容质量评估中与OpenAI Deep Research持平 [11] 技术创新 - 采用新一代稀疏注意力架构InfLLMv2 稀疏度降至5% 注意力层仅需1/10计算量完成长文本处理 相比DeepSeek NSA节省60%计算开销 [16][18][20] - 自研CPM cu推理框架实现5倍速度提升 集成FR-Spec轻量投机采样技术 通过词表裁剪策略优化低频词汇处理 [22] - 开发P-GPTQ前缀敏感量化方法 在INT4量化设置下性能退化最小 同时训练BitCPM三值量化模型 0 5B版本在知识任务表现优异 [23][26] 行业应用 - 已实现Intel 高通 MTK 华为昇腾等主流芯片适配 支持vLLM SGLang llama cpp等开源框架部署 性能超过同尺寸开源模型Qwen-3-8B [12] - 端侧长文本突破使个人助理产品能处理用户隐私信息 如聊天记录 位置数据 多模态感知场景如自动驾驶需100K以上上下文长度 [14] - 跨平台部署框架ArkInfer解决端侧芯片碎片化问题 提供高效推理速度并作为多功能兼容层 [27] 研发体系 - 采用Ultra-FineWeb高知识密度数据筛选机制 验证成本降低90% 处理15万亿token数据仅需1000小时CPU时间 [29] - 应用风洞2 0方案在小模型上搜索最优超参数 实验次数降低50% 采用FP8训练和MTP监督信号等前沿技术 [30] - 全平台下载量累计破1000万 基于"大模型密度定律"持续提升知识密度与智能水平 [32]
当 AI 能写代码修 bug,高考报计算机专业是“火坑”还是“新机遇” |深度对话 6 位专家
AI科技大本营· 2025-06-10 17:31
行业变革与AI影响 - 2024年高考考生达1335万人,计算机和人工智能成为热门推荐专业,张雪峰17999元志愿填报服务3分钟内售罄[1] - AI已能编写谷歌25%新代码并修复52%程序漏洞,Claude Code实现自我编写和重构[2] - 编程范式从"写代码"转向"写意图",开发者通过自然语言与AI协作生成代码[4] - Claude公司调整招聘策略,仅招募资深工程师,初级岗位大幅收缩[5] - 未来5年超50%入门级白领职位将消失,初级工程师首当其冲[6] 计算机专业价值 - 6位专家一致认为计算机专业仍值得报考,核心价值在于培养系统思维和创新能力[9][10] - AI工具替代重复编码工作,但需求分析、架构设计等高端技能需求上升[11][17][18] - 计算机专业课程(数据结构、算法、操作系统等)构成AI发展基础[17][27][30] - 优秀开发者与速成者的代码质量差异显著,AI生成代码目前质量仍有限[14][29] 未来技能需求变化 - 算法/数据结构/系统设计等基础能力权重不变,经验性技能(如架构设计)可能下降[27][28] - 创意能力(视频/艺术创作)、产品思维、沟通表达等软技能重要性提升[27][34][38] - 批判性思维、系统架构能力、终身学习成为核心竞争力[38] - 初级编码(增删改查)和语法细节可能边缘化,工程思维成为关键[28][33][34] 从业者适配建议 - 适合人群需具备逻辑思维、好奇心、持续学习能力,兴趣是持久动力[23][24][26] - 硬件方向(量子计算/AI芯片)适合喜欢实体设备的学生[23] - 软件方向需区分工程管理(适合组织协调型)与算法设计(适合逻辑创新型)[23] - 职业路径多元化,可向AI研发、学术深造或公务员方向发展[22][26] 行业实践案例 - 蚂蚁集团工程师90%代码通过AI生成,但需求理解/任务拆解仍需人工[21][22] - 资深开发者利用AI工具实现跨语言编程和陌生代码解读,效率显著提升[23] - 60岁程序员借助Cursor工具延长职业生命周期,印证终身学习价值[38]
对话 PyTorch 掌门人 Matt White:AI 应用应该做到“润物细无声”
AI科技大本营· 2025-06-09 18:41
AI开源生态现状 - 开源AI形成自我加速的良性循环,但"开放"定义权争夺战已悄然打响[1] - 部分机构通过限制性许可证进行"Open-washing",享受开源声誉红利却不给予实际自由[3] - 传统软件许可证难以适应AI模型复杂性,需专门为开放模型/数据/权重设计的新型许可证[6][7] 行业标准化进程 - PyTorch基金会推出"模型开放框架"(MOF)分级标准和OpenMDW许可证,明确开放定义[4] - Linux基金会作为中立第三方推动协议标准化,降低厂商锁定风险[9][10] - 70%-80% PyTorch文档流量来自中国,反映其在该市场的广泛采用基础[6] 技术发展趋势 - 具身智能领域需机器人操作系统、行为模型等工具支持,PyTorch成为主流训练框架[10] - AI智能体架构创新加速,开源社区需建立通用接口协议构建技术底座[8][9] - 生成式AI工具需保持human-in-the-loop模式,避免完全自动化导致的幻觉问题[12] 企业战略动态 - Meta、谷歌、微软等竞争对手在PyTorch基金会实现开源协作,共同提升框架性能[8][9] - Adobe等公司通过隐形AI集成实现技术价值,降低用户学习成本[12] - 中国DeepSeek-R1与海外Llama 4等开源模型推动开放定义演进[6] 人才与教育 - AI时代教育者需率先掌握人机协作技能,平衡工具使用与核心能力培养[13] - PyTorch启动大使计划培育区域社区,通过20分钟短演讲展示多元创新项目[11] - 认证培训项目需应对氛围编码、智能体系统等新兴技能需求[13] 行业风险警示 - 数字内容真实性危机迫近,合成媒体以假乱真威胁信息生态[15] - 技术滥用导致假消息泛滥,需建立C2PA等数字水印验证机制[15] - 监管需平衡创新空间与风险防控,过度限制将阻碍行业发展[14]
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 18:41
研究背景与动机 - 数学推理能力是衡量模型智能水平的关键指标 但现有基准如GSM8K和MATH存在覆盖不足和易被数据污染的问题 缺乏对本科水平数学问题的广泛覆盖 [1] - 香港科技大学研究团队推出UGMathBench基准测试 这是首个针对本科数学的多元化动态评测体系 专为评估LLM在本科阶段各类数学主题下的推理能力而设计 [1] 数据集设计特点 - 涵盖16个主要数学学科 包含5,062道经过精心筛选的本科级数学题目 按照答案类型细分为八种基础类型和两种复合类型 [4] - 每道题目配备多个随机化版本 通过变量扰动设计评估模型在面对变量扰动时的推理鲁棒性 [4] - 包含单变量微积分 多变量微积分 微分方程 概率等111个细分主题及583个子主题 [11] - 采用动态评估体系 每个问题包括3个随机版本 通过变量扰动创建多版本试题 确保模型依靠推理而非记忆生成答案 [11] 性能评估指标 - 引入创新指标有效准确率EAcc 衡量模型在所有随机化版本中均能正确解决问题的比例 量化真实推理能力 [15][19] - 定义推理差距Δ 计算平均准确率与有效准确率的差值 用于评估模型在面对问题变体时的推理鲁棒性 Δ=0表示完美鲁棒性 [16] - 鲁棒效率RE定义为Δ与EAcc的比值 反映推理差距的相对大小 [14] 模型性能表现 - 测试涵盖23个LLMs 包括4个闭源模型和19个开源模型 [18] - OpenAI-o1-mini在MATH上达到94.8%准确率 但在UGMathBench上仅达到56.3%准确率 [6] - 大多数开源LLM在UGMathBench中难以达到30%的EAcc [6] - 闭源模型表现最佳 OpenAI-o1-mini取得最高有效准确率56.3% 但Δ仍达11.7% [20][22] - 开源模型中Qwen2-Math-72B-Instruct表现最佳 有效准确率45.85% 但与OpenAI-o1-mini相比平均准确率降低10.97% 有效准确率降低10.45% [22] 学科表现分析 - LLM在算术问题方面表现最佳 有效准确率达到62.8% 在代数上达到58.3% [23] - 在组合学和复分析领域表现较好 平均有效准确率超过30% [23] - 在抽象代数 微分方程和金融数学领域表现最差 平均有效准确率不到10% 抽象代数仅约5% [23] 误差类型分析 - 计算错误占比最高 反映模型在符号运算中的不稳定性 [24] - 存在推理不一致问题 同一问题的不同版本中模型可能给出矛盾答案 显示模型依赖表面特征而非深层逻辑 [24] 未来发展方向 - 计划开发多模态版本 支持多语言数学问题评估 并增加更多学科的问题数量 [25] - 目标开发"大型推理模型" 实现高有效准确率和Δ→0 提升推理稳定性 [25] - 将持续更新数据集以提升质量 并优化评估代码和提示策略 [25]