量子位

搜索文档
华人学者助力「数学大一统理论」新突破!4位数学家花费近10年完成证明
量子位· 2025-06-21 11:57
朗兰兹纲领最新突破 - 4位数学家耗时近10年将"数学大一统理论"向前推动关键一步,将模性理论从椭圆曲线扩展到更复杂的阿贝尔曲面[1][2][9] - 研究成果以230页论文形式发布,证明了普通阿贝尔曲面总能对应一个模形式[5][6] - 该突破使朗兰兹纲领取得重大进展,开辟了研究阿贝尔曲面的新方向,可能催生新的数学猜想[3][41] 关键数学概念 - 模形式是具有特殊对称性的复变函数,其定义域为复上半平面[10][11][12] - 模性揭示了模形式与椭圆曲线之间的深刻联系,两者可相互映照进行研究[14][15][16] - 阿贝尔曲面是在椭圆曲线基础上增加一个变量形成的三维空间弯曲曲面[18] 研究突破过程 - 团队2016年开始合作,尝试将椭圆曲线的证明方法扩展到阿贝尔曲面[20] - 面临的主要挑战是额外变量使模形式构造困难,需采用反向建立和弱联系策略[22][24][25] - 中国数学家潘略2020年的研究成果成为解决关键障碍的重要工具[32][33][34] - 团队通过一周高强度集中研究潘略的方法,最终跨越了模2到模3时钟运算的障碍[36][38][40] 研究团队与后续计划 - 核心团队包括英国数学家Toby Gee、法国数学家Vincent Pilloni等4位专家[45][46][48][49][51] - 华人数学家潘略的研究对突破产生重要影响,他刚获得2025年斯隆奖[7][8][52][53] - 团队已开始与潘略合作,计划将成果扩展到非普通阿贝尔曲面[43][44] 中国数学界相关成就 - 除潘略外,同获2025年斯隆奖的还有北大数院校友梅松、李超[60] - 陈麟等中国数学家也在朗兰兹纲领相关领域取得重要成果[58][59] - 北大黄金一代恽之玮、张伟等学者长期致力于朗兰兹纲领研究[4][61]
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-21 11:57
核心观点 - 清华大学、腾讯ARC Lab、香港中文大学和香港大学联合推出新大模型MindOmni,显著增强AI的推理生成能力,能理解复杂指令并基于图文内容展开连贯的"思维链"(Chain-of-Thought, CoT),生成具备逻辑性与语义一致性的图像或文本输出 [7][9] - MindOmni基于Qwen2.5-VL构建,通过预训练的ViT提取图像特征并编码文本,结合扩散解码器OmniGen实现高质量图像生成 [14][15] - 采用三阶段训练框架(基础预训练、监督微调、推理生成策略优化RGPO),通过强化学习显式生成逻辑推理链,在MMMU、MMBench等基准测试中性能领先 [20][26][36][38] 模型架构 - 视觉语言模型部分基于Qwen2.5-VL,处理图像和文本输入,通过ViT提取图像特征并编码文本标记序列 [14] - 扩散解码器基于OmniGen构建,通过去噪过程将噪声信号转化为图像,在序列维度合并视觉/文本特征与噪声标记 [15][16] - 使用双层Transformer连接器对齐VLM输出特征与生成模块输入维度 [16] 训练框架 - **基础预训练阶段**:利用开源图像-文本对和X2I数据训练连接器,通过扩散损失和KL散度蒸馏损失优化生成过程 [20][21] - **监督微调阶段**:构建推理生成指令数据(粗/细粒度描述),结合高性能文生图模型生成的高质量图像提升生成质量 [23][24][25] - **RGPO阶段**:引入强化学习算法,设计格式奖励和一致性奖励函数(CLIP余弦相似度),优化推理链生成 [26][29][30] 性能表现 - **视觉理解**:在MMMU基准比Janus-Pro提升10.6%,在MMBench比MetaMorph提升9.8% [38] - **图像生成**:GenEval基准总体分数83%,DPG-Bench得分83.0,单对象生成任务准确率97% [40][41][43] - **推理生成**:WISE基准总体分数0.71,在文化知识、时空推理等子类超越FLUX、PixArt等模型 [45] 应用案例 - 正确生成"(3+6)条命的动物"对应的猫图像,理解数学表达式背后的语义 [46] - 生成"悉尼歌剧院在纽约中午时的场景"时能计算时差并匹配场景 [47] - 在多模态输入场景下保持图文语义一致性 [48]
拿了火星图片的华为云盘古大模型,这样在地球落地
量子位· 2025-06-20 18:31
华为云盘古大模型5.5升级 - 华为云发布基于盘古多模态大模型的"世界模型",支持火星图片生成多视角图片/视频,构建4D空间,是业界首个支持点云与视频模态同时生成的大模型 [7][1] - 在华为开发者大会2025上,华为云对五大基础模型进行升级,包括盘古NLP大模型、盘古多模态大模型、盘古预测大模型、盘古科学计算大模型和盘古CV大模型 [8] 盘古NLP大模型技术创新 - 引入Pangu DeepDiver技术,通过Search Intensity Scaling(SIS)提升LLM与搜索引擎交互效果,7B规模的DeepDiver表现出与671B DeepSeek-R1相当的能力 [12][13][16] - 采用低幻觉新方案,包括多层次幻觉防御体系和闭环质量保证体系,通过数据层、模型优化层、搜索增强层等多维度减少幻觉 [18][21][22][23] - Pangu Ultra MoE 718B模型在知识推理、开放式对话、工具调用等领域达到国内领先水平,与全球主流大模型持平 [24] 行业应用案例 - 农业科学发现大模型:与中国农科院合作,将水稻株型改良方案设计时间从数月缩短到数周,改良后水稻株高降低约25%,抗倒伏能力增强且产量不受影响 [28][29][33] - 盘古预测大模型:采用Triplet Transformer统一预训练架构,在海螺集团应用中实现熟料强度预测准确率85%以上,降低能源消耗 [35][36][38] - 盘古CV大模型:发布300亿参数视觉大模型,支持多维度感知,中国石油应用后缺陷识别效率提升40%,人工强度降低25% [39][40][42] 行业智能化解决方案 - 华为云ModelArts Studio大模型开发平台提供完备AI工具链,包括行业大模型、数据工程工具集等,帮助客户高效构建专属大模型 [42][43][44] - 行业模型增训工作流将训练周期与成本降低60%,行业模型评测中心覆盖8大行业评测集,实现用AI训练AI [45][46][47] - 华为云通过"技术创新+模型升级+行业深度落地"三轮驱动,推动千行万业智能化 [48]
上海AI Lab主任周伯文:关于人工智能前沿的十个问题
量子位· 2025-06-20 18:31
人工智能前沿十问 - 总体智能与单位智能的平衡问题:提出数据思维密度(IQPT)概念衡量模型训练数据的投入产出比 2025年1月上海人工智能实验室首次提出该指标 [17] - Deep RL资源悖论:探讨算力在数据合成与算法训练间的分配 提出效率飞轮概念即高质量合成数据反哺预训练形成良性循环 [18][20] - 软硬协同创新路径:国际厂商采用软件兼容硬件(如英伟达CUDA生态) 国内当前更多是硬件适配软件模式面临研发周期不匹配挑战 [21][23][24] - 算力配置策略:划分为应用算力(产业落地)、迭代算力(模型优化)、创新算力(颠覆技术) 当前创新算力严重不足制约非主流技术路线发展 [25] - Agent与基础模型关系:探讨Agent是目的还是手段 指出当前自我改进系统存在僵化学习问题 需构建具备世界模型的持续进化智能体 [26][28] - 具身智能核心问题:定义大脑与本体最优关系 避免超级大脑-弱本体或高级本体-简单决策的陷阱 [30] - AI安全范式转变:从被动弥补漏洞(Make AI Safe)转向主动构建本质安全(Make Safe AI) 提出45°平衡律和设计即安全原则 [31][33][34] - 评测体系重构:从静态能力导向转为动态任务导向 实现训练评测解决问题一体化 提出测试时强化学习(TTRL)框架 [35][37] - AI for Science升级:从工具效率提升转向引发科学范式变革 需突破多模态统一表征实现深度理解能力 [38][40] - 颠覆性架构探索:分析Transformer在计算效率、上下文理解等方面局限 提出需多元架构共存互补应对不同领域需求 [41][43] 科学社区建设 - 星河社区定位:上海人工智能实验室打造的学术社区 首届明珠湖会议吸引全球60位学者参与 产出14个提案和39个关键问题清单 [1][4][46] - 历史成功案例:英国皇家学会(牛顿等)、月光社(瓦特等)、阿帕社区(7位图灵奖得主)证明社区模式推动重大科技创新 [4][5][8] - 运营模式创新:采用引导报告+结对报告+平行论坛形式 聚焦18-36个月技术窗口期 鼓励突破学历资历限制的自由探讨 [12][13][14] - 成果转化路径:通过开放课题、AI4S攀登者计划等载体 将关键问题对接上海市和国家重大研究项目实现快速落地 [14] 人工智能发展趋势 - 技术体系化:需完善智能本质理论 改变应用先行的学科发展路径 [15] - 形态多元化:与实体经济深度融合 因技术不完备需在应用中妥协新形态 [16] - 能力高阶化:强调要素突破和形态理解 避免基于中阶过程探讨高阶化 [16] 战略科学家培养 - 历史涌现规律:匈牙利黄金一代(冯·诺依曼等)、美国PC革命(盖茨等)、OpenAI波兰团队等显示顶尖人才集聚效应 [44] - 培育模式创新:通过科学社区形成人才蓄水池 采用高强度投入+集中攻关+人才历练场三位一体机制 [45]
ChatGPT用多了会变傻!MIT招募大学生做实验论证,用得越多人越笨
量子位· 2025-06-20 18:31
核心观点 - MIT脑科学研究发现过度使用ChatGPT等AI工具会显著降低大脑活动水平 削弱记忆能力 并造成"认知惯性" [1] - 长期依赖AI工具将影响深度思考与创造力 使大脑从主动生成信息转变为被动筛选信息 [2][28] - 实验首次通过脑电图神经成像、NLP分析和行为科学数据证实AI写作工具会降低认知参与度 导致大脑退化 [3][25] 实验设计 - 54名大学生被随机分为三组:LLM组(仅用GPT-4o)、搜索引擎组(仅用谷歌)、纯大脑组(禁用所有工具) [11] - 每组需在20分钟内完成SAT议论文写作 期间用脑电图记录神经活动 并通过NLP分析语言特征 [13][15] - 第四轮实验将18名参与者调换组别 观察工具切换后的认知表现差异 [24] 神经活动差异 - 纯大脑组神经连接最强 需调动更多记忆与创造性思维 认知负荷最高 [17] - LLM组神经连接最弱 自主思考大幅减少 搜索引擎组介于两者之间 [18] - 原LLM组切换至纯大脑写作后 神经连接仍弱于原生纯大脑组 显示认知惯性 [24] 论文质量与记忆表现 - LLM组论文结构规范但同质化 纯大脑组风格独特 搜索引擎组受排名偏见影响质量中等 [20] - 83.3%的LLM组参与者无法准确记忆论文内容 纯大脑组仅11.1%存在记忆困难 [21][22] - 原纯大脑组使用LLM时大脑活动增强 因能整合工具建议与自主思考 [24] 认知机制影响 - AI工具形成"便利陷阱" 以降低神经连接为代价换取效率 导致记忆衰退与创造力下降 [26] - 长期使用改变信息处理模式 削弱独立解决问题能力 类似导航工具使人方向感退化 [5][28] - 纯大脑写作强化神经协调 搜索引擎使用涉及视觉执行整合 处于中间状态 [29] 使用建议 - 避免完全依赖AI生成核心内容 应将其用于语法检查或初步资料搜集 [30] - 产出后需消化吸收并融入个人见解 保持工具辅助与自主思考的平衡 [7][31] - 类比计算器使用原则:关键在教会何时需心算而非禁止工具 [9]
只改2行代码,RAG效率暴涨30%!多种任务适用,可扩展至百亿级数据规模应用
量子位· 2025-06-20 18:31
核心观点 - 浙江大学团队开源新方法PSP,通过修改两行代码使RAG向量检索效率提升30%,适用于多种任务并支持十亿、百亿级别大规模应用[1] - PSP突破最大内积检索难题,解决传统方法因不满足三角关系导致的失效问题[3][4] - 该方法设置提前停止策略避免算力浪费,显著提升搜索速度[5] 技术背景 - 向量检索是AI产品核心技术组件,但主流算法如HNSW、NSG均基于欧式空间设计,导致语义相关性检索出现偏差[6][7] - 最大内积检索领域长期缺乏现象级算法,现有方法存在数据集适应性差的问题[7] - 内积空间因缺乏"三角不等式"属性,难以实现高效检索空间裁剪[9][10] 技术突破 - PSP证明在欧式距离图索引上通过贪心算法可找到全局最优最大内积解[10] - 仅需修改候选点队列的堆设定和距离度量两处代码即可适配现有欧式算法[11][13] - 搜索行为分析显示最大内积解多位于数据"外围",PSP据此优化起始点分布[16][17] 性能优化 - 采用决策树实现自适应早停策略,通过四类特征判断最优停止时机[19][20] - 决策树高度经剪枝控制在较低水平,可高效嵌入搜索代码[20] 实测表现 - 在8个高维数据集测试中,PSP检索速度(QPS)显著优于现有方法,在MNIST数据上超第二名4倍[21][23] - 支持1536-3072维高维向量,最大测试数据集达1亿规模(Commerce100M)[21] - 在"文搜文"、"图搜图"等多模态任务中展现强大泛化能力[25] - 时间复杂度呈log(N)增长,具备十亿级数据高效检索潜力[26]
余承东发布纯血鸿蒙2.0!功能演示叫好一片,安卓和苹果都不香了
量子位· 2025-06-20 16:53
鸿蒙6核心升级方向 - 全面拥抱AI与Agent技术,成为纯血鸿蒙第二大版本的明确趋势[1] - 系统深度整合AI能力,覆盖修图、构图等影像处理功能[5][17][18] - 小艺助手实现视频通话能力,可实时解析视觉信息并交互[3][25][26] 智能交互升级 - 小艺同时接入盘古和DeepSeek大模型,训练数据达20万亿Tokens[15] - 新增"小艺看世界"功能,支持残障辅助、老人用药识别等场景[26][27] - 文档智能与小艺慧记功能提升华为电脑办公效率[29] 鸿蒙智能体生态 - 首批上线50+鸿蒙智能体,覆盖微博、钉钉等国民级应用[8][34] - 智能体框架实现GUI向LUI(大模型交互)进化[13][14] - 支持50+系统插件与三方MCP插件,智能体可协同进化[31] 全场景互联功能 - 碰一碰分享功能升级,支持一碰多收且零流量消耗[38][40] - 实现跨设备游戏战局共享、视频会议接入等场景[42] - 支持百余款应用无缝衔接,包括WPS、剪映等第三方应用[47][49][53] 开发者生态进展 - 660+应用已接入全新互联架构,3000+应用正在鸿蒙化开发[8][9] - 深圳航空等企业已开发出行智能体实现订票退改等功能[35] - 第三方开发者贡献系统级能力,生态呈现滚雪球效应[58][60]
2025必看!大神Karpathy封神演讲:AI创业不造钢铁侠,而是造钢铁侠的战衣
量子位· 2025-06-20 13:53
软件3.0时代 - 软件在过去70年基本没变 但最近几年连续经历两次根本性变革 从传统编程到神经网络再到自然语言编程大模型 [2][5] - 大模型是可编程的 提示词就是程序 用自然语言编写 标志着软件3.0时代的到来 [4][5][6] - 软件1.0是传统代码编程 软件2.0是神经网络权重参数调整 软件3.0是自然语言编程大模型 [11][31] 大模型三重属性 - 工具属性:类似电力网络 前期高资本投入建设基础设施 后期按API使用量收费 需求特征为低延迟、高稳定性、质量一致 [8] - 工厂属性:训练需巨额资本 技术路线复杂 研发集中在少数公司 软件可复制性使护城河不如硬件牢固 [9] - 操作系统属性:形成复杂软件生态系统 闭源巨头与开源社区并存 当前类似计算的1960年代 模型集中在云端 [12][13] 大模型能力与局限 - 拥有百科全书般记忆 能记住Git提交哈希值等人类难以记忆的内容 [15] - 存在认知缺陷 产生幻觉、缺乏自我认知、犯低级错误如9.11大于9.9 数错字母数量 [16] - 患顺行性失忆症 上下文窗口即工作记忆 每天被清空 无法持续学习巩固知识 [16] AI应用机遇 - 最大机遇在构建半自主化产品 提供自主性滑块 控制权始终在人类手上 如Cursor的代码重构层级选择 Perplexity的搜索深度选择 [17][21][22] - Vibe coding兴起 大模型理解自然语言使人人可编程 但部署环节仍依赖传统人工操作 [24][25] - 需为AI agent重建基础设施 当前软件为人类设计 需转向大模型友好格式 如Markdown文档替代点击指令 [25][26] 行业发展趋势 - 需重写海量代码 专业程序员与vibe coder共同参与 未来十年自主性滑块将逐步右移 [28] - 中期大模型渗透企业级工作流 代码、文档、数据分析全面智能化 [29] - 长期普及类贾维斯智能助手 但人类始终是闭环决策者 [30] - 从业者需同时掌握Software 1.0代码、2.0模型训练、3.0提示词工程 [31]
李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
量子位· 2025-06-20 13:53
预训练模型架构探索新方法 - 提出"嫁接"技术可直接修改预训练模型组件来研究新架构,避免从头训练的高成本[2] - 该方法类比软件开发中的代码复用逻辑,显著提升研究效率[3] - 在DiTs模型测试中,混合设计仅需2%预训练计算量即可保持原模型性能[5] 技术实现细节 - 采用两阶段架构编辑法:激活蒸馏(L1/L2损失函数)和轻量级微调(5×10-5权重衰减)[16] - 自嫁接对照实验显示仅需8k样本初始化,10%训练数据微调即可恢复模型性能[19] - 计算图修改涉及MHA/MLP算子替换,需解决新算子初始化和误差累积两大问题[14][15] 实验验证结果 - 混合架构实验:50% MHA替换为SWA时FID仅增0.4,全替换导致FID>75[20] - 文生图模型PixArt-Σ经嫁接后生成速度提升1.43倍(235ms→164ms),质量下降<2%[23][24] - 并行化改造使DiT-XL/2深度减半(28→14层)仍保持更优生成质量[25][26] 应用价值与局限 - 22种嫁接模型已开源,涵盖MLP宽度调整(r=3/6)和Hyena系列算子替换[22][29] - 当前局限在于仅验证DiT-XL/2模型及特定算子替换方案[27] - 方法显著降低架构探索门槛,尤其适合计算资源有限场景[28]
小扎抢人抢到了Ilya头上:收购不成,转头挖走CEO
量子位· 2025-06-20 11:28
被小扎pick的是 Daniel Gross ,Ilya初创公司SSI (Safe SuperIntelligence) 的创始三人组之一,也是SSI的现任CEO。 鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 扎克伯格为了AGI大业疯狂挖人,这回挖到了Ilya头上。 最新消息是,小扎想连人带团队把Ilya的初创公司揽入麾下,遭拒之后,扭头就挖Ilya的联创去了。 △ Daniel Gross 除了Gross本人,这次Meta还向GitHub前首席执行官Nat Friedman抛出了橄榄枝,并计划入股Gross和Friedman共同经营的风险投资基金 NFDG。 p.s. 这家风险投资基金本身就投了SSI,还投了Pika、Perplexity等AI初创明星。 消息还称两人将在Alexandr Wang领导下开发产品——就是 扎克伯格上周刚拉来加入超级智能小组的Scale AI创始人 。 CEO弃估值320亿美元SSI而去 还是先来看看这次小扎出手"捕获"的AI人才履历。 Daniel Gross ,1991年生人,毕业于哈佛大学计算机系。 在2024年6月加入Ilya Sutskever的创业团队之前 ...