量子位

搜索文档
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
量子位· 2025-06-21 14:07
核心观点 - 蚂蚁技术研究院联合中科院自动化所和香港中文大学开源ViLaSR-7B模型,通过"Drawing to Reason in Space"范式实现空间推理能力突破,在5个基准测试中平均提升18.4% [1][2][3] - 模型在VSI-Bench基准上达到45.4%准确率,与Gemini-1.5-Pro相当,显著超越Qwen2.5-VL-7B等开源模型(+12.7%)[4][26] - 采用三阶段训练框架(冷启动+反思拒绝采样+强化学习)系统化培养空间推理能力,强化学习使绘图操作效率提升159.4% [21][22][23][24][29] 技术突破 推理范式创新 - 提出"边看边画、边画边想"的交互式视觉推理范式,通过绘制辅助标注(参考线/标记框)保留空间信息,解决传统"视觉转文本"范式信息丢失问题 [17][20] - 相比OpenAI的"Thinking with Images"范式,ViLaSR支持多图场景下的连贯空间推理,动态追踪跨帧变化关系 [8][17][20] - 传统LVLMs因视觉编码器压缩丢失时空信息,ViLaSR在迷宫导航任务中准确率提升64.5%(达98.2%)[10][11][25] 训练方法 - 冷启动阶段:合成数据训练基础绘图操作能力(标注边界框/辅助线)[22] - 反思拒绝采样:筛选含修正行为的高质量样本,使反思行为频率提升9.1% [23][29] - 强化学习阶段:通过双奖励机制(结果+格式)优化操作策略,数值类任务性能提升9.21% [24][29] 性能表现 基准测试 - 迷宫导航(MAZE):98.2%(超越GPT-4o 35.1个百分点)[25] - 静态图像理解(SpatialEval-Real):63.9%(优于LLaVA-NeXT-Video-72B)[25] - 多图像推理(MMSI-Bench):30.2%(较SpaceR-7B提升3.3%)[25] 类人能力 - 参考物度量推理:主动识别已知尺寸物体进行比例换算 [30] - 跨帧对象追踪:系统性标注多帧中相同物体建立时空关联 [32] - 案例显示模型可自主修正错误路径,推理步骤减少4.07% [29][33] 行业影响 - 为机器人导航、虚拟助手等空间智能应用奠定技术基础 [34] - 突破视觉语言模型在多图/视频场景的时空关联限制,推动多模态推理向高效性发展 [16][34] - 开源模型ViLaSR-7B代码及论文已公开,加速行业技术迭代 [35]
陶哲轩罕见长长长长长访谈:数学、AI和给年轻人的建议
量子位· 2025-06-21 11:57
数学与AI的协同关系 - AI正在重塑人类科学范式 在数学和物理的终极问题上 AI将成为人类探索的重要伙伴 但无法取代人类的直觉与创造力 [2] - 复数意义上的人类共同体将创造出最顶尖的超级智能体 比单个数学家更有可能实现数学领域的突破 [3] - 数学的关键在于从几十种可能方法中排除错误答案 而不仅是找到技术路径 [3] 数学研究方法论 - 解决困难问题需采用分阶段策略 类似香港动作片中逐个击破对手的方式 [3] - 数学研究需在结构与随机性之间寻找平衡 大多数生成对象是随机的 仅有少数存在固定模式 [38] - 数学家可通过"策略性作弊"简化问题 即暂时关闭部分困难因素 集中解决核心矛盾 [89] 前沿数学难题 - Kakeya猜想涉及在最小空间内实现物体方向调转 其解与波传播、流体动力学存在深刻联系 [5][6][7][8][9] - 纳维-斯托克斯正则性问题探讨流体运动是否会产生奇点 属于克莱基金会七大千禧年难题之一 [16][17][18] - 塞迈雷迪定理证明在足够大的数字集合中必然存在任意长度等差数列 [41] 数学与物理的差异 - 数学从公理出发关注模型构建 物理由结论驱动注重观测结果 [51] - 物理学依赖观察-理论-建模的互动循环 数学则更侧重理论推导 [52] - 数学允许自由改变规则 这是其他领域无法实现的独特优势 [3] 形式化证明与协作 - Lean编程语言能生成带证明的数学陈述 实现原子级别的协作验证 [94][95][96] - 形式化证明使常数优化效率提升10倍 能快速定位需修改的代码段 [101] - 方程理论项目通过众包完成2200万对代数法则关系验证 展示规模化数学实验潜力 [111][112][113] AI在数学中的应用 - AlphaProof系统通过强化学习解决IMO级别问题 但研究生级问题面临组合爆炸挑战 [121] - 大型语言模型可用于数学引理搜索 在代码补全场景准确率达25% [100] - AI驱动的实验数学可能成为未来研究方向 辅助处理传统暴力计算无法解决的问题 [55]
华人学者助力「数学大一统理论」新突破!4位数学家花费近10年完成证明
量子位· 2025-06-21 11:57
朗兰兹纲领最新突破 - 4位数学家耗时近10年将"数学大一统理论"向前推动关键一步,将模性理论从椭圆曲线扩展到更复杂的阿贝尔曲面[1][2][9] - 研究成果以230页论文形式发布,证明了普通阿贝尔曲面总能对应一个模形式[5][6] - 该突破使朗兰兹纲领取得重大进展,开辟了研究阿贝尔曲面的新方向,可能催生新的数学猜想[3][41] 关键数学概念 - 模形式是具有特殊对称性的复变函数,其定义域为复上半平面[10][11][12] - 模性揭示了模形式与椭圆曲线之间的深刻联系,两者可相互映照进行研究[14][15][16] - 阿贝尔曲面是在椭圆曲线基础上增加一个变量形成的三维空间弯曲曲面[18] 研究突破过程 - 团队2016年开始合作,尝试将椭圆曲线的证明方法扩展到阿贝尔曲面[20] - 面临的主要挑战是额外变量使模形式构造困难,需采用反向建立和弱联系策略[22][24][25] - 中国数学家潘略2020年的研究成果成为解决关键障碍的重要工具[32][33][34] - 团队通过一周高强度集中研究潘略的方法,最终跨越了模2到模3时钟运算的障碍[36][38][40] 研究团队与后续计划 - 核心团队包括英国数学家Toby Gee、法国数学家Vincent Pilloni等4位专家[45][46][48][49][51] - 华人数学家潘略的研究对突破产生重要影响,他刚获得2025年斯隆奖[7][8][52][53] - 团队已开始与潘略合作,计划将成果扩展到非普通阿贝尔曲面[43][44] 中国数学界相关成就 - 除潘略外,同获2025年斯隆奖的还有北大数院校友梅松、李超[60] - 陈麟等中国数学家也在朗兰兹纲领相关领域取得重要成果[58][59] - 北大黄金一代恽之玮、张伟等学者长期致力于朗兰兹纲领研究[4][61]
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-21 11:57
核心观点 - 清华大学、腾讯ARC Lab、香港中文大学和香港大学联合推出新大模型MindOmni,显著增强AI的推理生成能力,能理解复杂指令并基于图文内容展开连贯的"思维链"(Chain-of-Thought, CoT),生成具备逻辑性与语义一致性的图像或文本输出 [7][9] - MindOmni基于Qwen2.5-VL构建,通过预训练的ViT提取图像特征并编码文本,结合扩散解码器OmniGen实现高质量图像生成 [14][15] - 采用三阶段训练框架(基础预训练、监督微调、推理生成策略优化RGPO),通过强化学习显式生成逻辑推理链,在MMMU、MMBench等基准测试中性能领先 [20][26][36][38] 模型架构 - 视觉语言模型部分基于Qwen2.5-VL,处理图像和文本输入,通过ViT提取图像特征并编码文本标记序列 [14] - 扩散解码器基于OmniGen构建,通过去噪过程将噪声信号转化为图像,在序列维度合并视觉/文本特征与噪声标记 [15][16] - 使用双层Transformer连接器对齐VLM输出特征与生成模块输入维度 [16] 训练框架 - **基础预训练阶段**:利用开源图像-文本对和X2I数据训练连接器,通过扩散损失和KL散度蒸馏损失优化生成过程 [20][21] - **监督微调阶段**:构建推理生成指令数据(粗/细粒度描述),结合高性能文生图模型生成的高质量图像提升生成质量 [23][24][25] - **RGPO阶段**:引入强化学习算法,设计格式奖励和一致性奖励函数(CLIP余弦相似度),优化推理链生成 [26][29][30] 性能表现 - **视觉理解**:在MMMU基准比Janus-Pro提升10.6%,在MMBench比MetaMorph提升9.8% [38] - **图像生成**:GenEval基准总体分数83%,DPG-Bench得分83.0,单对象生成任务准确率97% [40][41][43] - **推理生成**:WISE基准总体分数0.71,在文化知识、时空推理等子类超越FLUX、PixArt等模型 [45] 应用案例 - 正确生成"(3+6)条命的动物"对应的猫图像,理解数学表达式背后的语义 [46] - 生成"悉尼歌剧院在纽约中午时的场景"时能计算时差并匹配场景 [47] - 在多模态输入场景下保持图文语义一致性 [48]
上海AI Lab主任周伯文:关于人工智能前沿的十个问题
量子位· 2025-06-20 18:31
人工智能前沿十问 - 总体智能与单位智能的平衡问题:提出数据思维密度(IQPT)概念衡量模型训练数据的投入产出比 2025年1月上海人工智能实验室首次提出该指标 [17] - Deep RL资源悖论:探讨算力在数据合成与算法训练间的分配 提出效率飞轮概念即高质量合成数据反哺预训练形成良性循环 [18][20] - 软硬协同创新路径:国际厂商采用软件兼容硬件(如英伟达CUDA生态) 国内当前更多是硬件适配软件模式面临研发周期不匹配挑战 [21][23][24] - 算力配置策略:划分为应用算力(产业落地)、迭代算力(模型优化)、创新算力(颠覆技术) 当前创新算力严重不足制约非主流技术路线发展 [25] - Agent与基础模型关系:探讨Agent是目的还是手段 指出当前自我改进系统存在僵化学习问题 需构建具备世界模型的持续进化智能体 [26][28] - 具身智能核心问题:定义大脑与本体最优关系 避免超级大脑-弱本体或高级本体-简单决策的陷阱 [30] - AI安全范式转变:从被动弥补漏洞(Make AI Safe)转向主动构建本质安全(Make Safe AI) 提出45°平衡律和设计即安全原则 [31][33][34] - 评测体系重构:从静态能力导向转为动态任务导向 实现训练评测解决问题一体化 提出测试时强化学习(TTRL)框架 [35][37] - AI for Science升级:从工具效率提升转向引发科学范式变革 需突破多模态统一表征实现深度理解能力 [38][40] - 颠覆性架构探索:分析Transformer在计算效率、上下文理解等方面局限 提出需多元架构共存互补应对不同领域需求 [41][43] 科学社区建设 - 星河社区定位:上海人工智能实验室打造的学术社区 首届明珠湖会议吸引全球60位学者参与 产出14个提案和39个关键问题清单 [1][4][46] - 历史成功案例:英国皇家学会(牛顿等)、月光社(瓦特等)、阿帕社区(7位图灵奖得主)证明社区模式推动重大科技创新 [4][5][8] - 运营模式创新:采用引导报告+结对报告+平行论坛形式 聚焦18-36个月技术窗口期 鼓励突破学历资历限制的自由探讨 [12][13][14] - 成果转化路径:通过开放课题、AI4S攀登者计划等载体 将关键问题对接上海市和国家重大研究项目实现快速落地 [14] 人工智能发展趋势 - 技术体系化:需完善智能本质理论 改变应用先行的学科发展路径 [15] - 形态多元化:与实体经济深度融合 因技术不完备需在应用中妥协新形态 [16] - 能力高阶化:强调要素突破和形态理解 避免基于中阶过程探讨高阶化 [16] 战略科学家培养 - 历史涌现规律:匈牙利黄金一代(冯·诺依曼等)、美国PC革命(盖茨等)、OpenAI波兰团队等显示顶尖人才集聚效应 [44] - 培育模式创新:通过科学社区形成人才蓄水池 采用高强度投入+集中攻关+人才历练场三位一体机制 [45]
拿了火星图片的华为云盘古大模型,这样在地球落地
量子位· 2025-06-20 18:31
华为云盘古大模型5.5升级 - 华为云发布基于盘古多模态大模型的"世界模型",支持火星图片生成多视角图片/视频,构建4D空间,是业界首个支持点云与视频模态同时生成的大模型 [7][1] - 在华为开发者大会2025上,华为云对五大基础模型进行升级,包括盘古NLP大模型、盘古多模态大模型、盘古预测大模型、盘古科学计算大模型和盘古CV大模型 [8] 盘古NLP大模型技术创新 - 引入Pangu DeepDiver技术,通过Search Intensity Scaling(SIS)提升LLM与搜索引擎交互效果,7B规模的DeepDiver表现出与671B DeepSeek-R1相当的能力 [12][13][16] - 采用低幻觉新方案,包括多层次幻觉防御体系和闭环质量保证体系,通过数据层、模型优化层、搜索增强层等多维度减少幻觉 [18][21][22][23] - Pangu Ultra MoE 718B模型在知识推理、开放式对话、工具调用等领域达到国内领先水平,与全球主流大模型持平 [24] 行业应用案例 - 农业科学发现大模型:与中国农科院合作,将水稻株型改良方案设计时间从数月缩短到数周,改良后水稻株高降低约25%,抗倒伏能力增强且产量不受影响 [28][29][33] - 盘古预测大模型:采用Triplet Transformer统一预训练架构,在海螺集团应用中实现熟料强度预测准确率85%以上,降低能源消耗 [35][36][38] - 盘古CV大模型:发布300亿参数视觉大模型,支持多维度感知,中国石油应用后缺陷识别效率提升40%,人工强度降低25% [39][40][42] 行业智能化解决方案 - 华为云ModelArts Studio大模型开发平台提供完备AI工具链,包括行业大模型、数据工程工具集等,帮助客户高效构建专属大模型 [42][43][44] - 行业模型增训工作流将训练周期与成本降低60%,行业模型评测中心覆盖8大行业评测集,实现用AI训练AI [45][46][47] - 华为云通过"技术创新+模型升级+行业深度落地"三轮驱动,推动千行万业智能化 [48]
ChatGPT用多了会变傻!MIT招募大学生做实验论证,用得越多人越笨
量子位· 2025-06-20 18:31
核心观点 - MIT脑科学研究发现过度使用ChatGPT等AI工具会显著降低大脑活动水平 削弱记忆能力 并造成"认知惯性" [1] - 长期依赖AI工具将影响深度思考与创造力 使大脑从主动生成信息转变为被动筛选信息 [2][28] - 实验首次通过脑电图神经成像、NLP分析和行为科学数据证实AI写作工具会降低认知参与度 导致大脑退化 [3][25] 实验设计 - 54名大学生被随机分为三组:LLM组(仅用GPT-4o)、搜索引擎组(仅用谷歌)、纯大脑组(禁用所有工具) [11] - 每组需在20分钟内完成SAT议论文写作 期间用脑电图记录神经活动 并通过NLP分析语言特征 [13][15] - 第四轮实验将18名参与者调换组别 观察工具切换后的认知表现差异 [24] 神经活动差异 - 纯大脑组神经连接最强 需调动更多记忆与创造性思维 认知负荷最高 [17] - LLM组神经连接最弱 自主思考大幅减少 搜索引擎组介于两者之间 [18] - 原LLM组切换至纯大脑写作后 神经连接仍弱于原生纯大脑组 显示认知惯性 [24] 论文质量与记忆表现 - LLM组论文结构规范但同质化 纯大脑组风格独特 搜索引擎组受排名偏见影响质量中等 [20] - 83.3%的LLM组参与者无法准确记忆论文内容 纯大脑组仅11.1%存在记忆困难 [21][22] - 原纯大脑组使用LLM时大脑活动增强 因能整合工具建议与自主思考 [24] 认知机制影响 - AI工具形成"便利陷阱" 以降低神经连接为代价换取效率 导致记忆衰退与创造力下降 [26] - 长期使用改变信息处理模式 削弱独立解决问题能力 类似导航工具使人方向感退化 [5][28] - 纯大脑写作强化神经协调 搜索引擎使用涉及视觉执行整合 处于中间状态 [29] 使用建议 - 避免完全依赖AI生成核心内容 应将其用于语法检查或初步资料搜集 [30] - 产出后需消化吸收并融入个人见解 保持工具辅助与自主思考的平衡 [7][31] - 类比计算器使用原则:关键在教会何时需心算而非禁止工具 [9]
只改2行代码,RAG效率暴涨30%!多种任务适用,可扩展至百亿级数据规模应用
量子位· 2025-06-20 18:31
核心观点 - 浙江大学团队开源新方法PSP,通过修改两行代码使RAG向量检索效率提升30%,适用于多种任务并支持十亿、百亿级别大规模应用[1] - PSP突破最大内积检索难题,解决传统方法因不满足三角关系导致的失效问题[3][4] - 该方法设置提前停止策略避免算力浪费,显著提升搜索速度[5] 技术背景 - 向量检索是AI产品核心技术组件,但主流算法如HNSW、NSG均基于欧式空间设计,导致语义相关性检索出现偏差[6][7] - 最大内积检索领域长期缺乏现象级算法,现有方法存在数据集适应性差的问题[7] - 内积空间因缺乏"三角不等式"属性,难以实现高效检索空间裁剪[9][10] 技术突破 - PSP证明在欧式距离图索引上通过贪心算法可找到全局最优最大内积解[10] - 仅需修改候选点队列的堆设定和距离度量两处代码即可适配现有欧式算法[11][13] - 搜索行为分析显示最大内积解多位于数据"外围",PSP据此优化起始点分布[16][17] 性能优化 - 采用决策树实现自适应早停策略,通过四类特征判断最优停止时机[19][20] - 决策树高度经剪枝控制在较低水平,可高效嵌入搜索代码[20] 实测表现 - 在8个高维数据集测试中,PSP检索速度(QPS)显著优于现有方法,在MNIST数据上超第二名4倍[21][23] - 支持1536-3072维高维向量,最大测试数据集达1亿规模(Commerce100M)[21] - 在"文搜文"、"图搜图"等多模态任务中展现强大泛化能力[25] - 时间复杂度呈log(N)增长,具备十亿级数据高效检索潜力[26]
余承东发布纯血鸿蒙2.0!功能演示叫好一片,安卓和苹果都不香了
量子位· 2025-06-20 16:53
鸿蒙6核心升级方向 - 全面拥抱AI与Agent技术,成为纯血鸿蒙第二大版本的明确趋势[1] - 系统深度整合AI能力,覆盖修图、构图等影像处理功能[5][17][18] - 小艺助手实现视频通话能力,可实时解析视觉信息并交互[3][25][26] 智能交互升级 - 小艺同时接入盘古和DeepSeek大模型,训练数据达20万亿Tokens[15] - 新增"小艺看世界"功能,支持残障辅助、老人用药识别等场景[26][27] - 文档智能与小艺慧记功能提升华为电脑办公效率[29] 鸿蒙智能体生态 - 首批上线50+鸿蒙智能体,覆盖微博、钉钉等国民级应用[8][34] - 智能体框架实现GUI向LUI(大模型交互)进化[13][14] - 支持50+系统插件与三方MCP插件,智能体可协同进化[31] 全场景互联功能 - 碰一碰分享功能升级,支持一碰多收且零流量消耗[38][40] - 实现跨设备游戏战局共享、视频会议接入等场景[42] - 支持百余款应用无缝衔接,包括WPS、剪映等第三方应用[47][49][53] 开发者生态进展 - 660+应用已接入全新互联架构,3000+应用正在鸿蒙化开发[8][9] - 深圳航空等企业已开发出行智能体实现订票退改等功能[35] - 第三方开发者贡献系统级能力,生态呈现滚雪球效应[58][60]
2025必看!大神Karpathy封神演讲:AI创业不造钢铁侠,而是造钢铁侠的战衣
量子位· 2025-06-20 13:53
软件3.0时代 - 软件在过去70年基本没变 但最近几年连续经历两次根本性变革 从传统编程到神经网络再到自然语言编程大模型 [2][5] - 大模型是可编程的 提示词就是程序 用自然语言编写 标志着软件3.0时代的到来 [4][5][6] - 软件1.0是传统代码编程 软件2.0是神经网络权重参数调整 软件3.0是自然语言编程大模型 [11][31] 大模型三重属性 - 工具属性:类似电力网络 前期高资本投入建设基础设施 后期按API使用量收费 需求特征为低延迟、高稳定性、质量一致 [8] - 工厂属性:训练需巨额资本 技术路线复杂 研发集中在少数公司 软件可复制性使护城河不如硬件牢固 [9] - 操作系统属性:形成复杂软件生态系统 闭源巨头与开源社区并存 当前类似计算的1960年代 模型集中在云端 [12][13] 大模型能力与局限 - 拥有百科全书般记忆 能记住Git提交哈希值等人类难以记忆的内容 [15] - 存在认知缺陷 产生幻觉、缺乏自我认知、犯低级错误如9.11大于9.9 数错字母数量 [16] - 患顺行性失忆症 上下文窗口即工作记忆 每天被清空 无法持续学习巩固知识 [16] AI应用机遇 - 最大机遇在构建半自主化产品 提供自主性滑块 控制权始终在人类手上 如Cursor的代码重构层级选择 Perplexity的搜索深度选择 [17][21][22] - Vibe coding兴起 大模型理解自然语言使人人可编程 但部署环节仍依赖传统人工操作 [24][25] - 需为AI agent重建基础设施 当前软件为人类设计 需转向大模型友好格式 如Markdown文档替代点击指令 [25][26] 行业发展趋势 - 需重写海量代码 专业程序员与vibe coder共同参与 未来十年自主性滑块将逐步右移 [28] - 中期大模型渗透企业级工作流 代码、文档、数据分析全面智能化 [29] - 长期普及类贾维斯智能助手 但人类始终是闭环决策者 [30] - 从业者需同时掌握Software 1.0代码、2.0模型训练、3.0提示词工程 [31]