量子位
搜索文档
LeCun团队新论文:模仿人类智能搞AI,照猫画虎死胡同
量子位· 2026-03-09 18:05
文章核心观点 - 图灵奖得主Yann LeCun提出,AI发展的未来方向不应是模仿人类的通用人工智能,而应是追求**超人类适应性智能**,其核心是**系统适应新任务的速度**,而非掌握技能的数量[2][3][5] - 将人类智能作为AI发展的基准和目标是错误的,这限制了AI的能力发展,使其局限于以人类为中心的任务空间[10][11][12] - 人类的“通用”智能本质上是生物进化为生存而优化的结果,存在认知盲区,并非真正的通用,因此AI复制人类的“生存型智能工具箱”是一条错误的技术路线[18][20][30] - 智能进化的常态是**专业化**,通过任务特定的架构和训练实现超人类能力,强行追求通用性在工程和理论上往往是低效的[31][34][42] AI发展目标的转变 - 发展目标发生三个关键变化:**不再以人类为参照系**、**拥抱专业化以实现超人类能力**、衡量智能的核心指标变为**学习新技能的速度**[3][6] - 过去的发展逻辑是把人类当作智能标尺,例如图灵测试,但LeCun团队认为这限制了通往超人类能力的路径[8][9][10] - 更合理的路径是让AI围绕明确目标,通过**自我博弈、进化搜索和大规模仿真**持续优化能力[13] 对人类“通用性”的批判 - 人类智能是进化塑造的生存工具,擅长视觉感知、行走等对生存至关重要的能力,但在计算复杂概率、高维优化等任务上表现远不如计算机[19][20][23] - 莫拉维克悖论指出:人类觉得简单的事情对计算机很难,而人类觉得困难的事情对计算机却很容易[26][27][28] - 所谓“通用人工智能”很大程度上是一种错觉,源于人类无法看见自己的生物学盲区[25] 专业化是智能进化的常态 - 从生物学角度看,在资源有限、环境复杂的情况下,进化会推动系统向**特定能力方向优化**[32] - 在AI领域,如果某个领域的任务对成本、精度、可靠性要求高,任何不达标的模型都会被更专业的系统取代[34] - **AlphaFold**是专业化的典型成功案例,它通过任务特定的架构、数据和训练策略,在蛋白质结构预测上实现了巨大突破[35][37] - 机器学习的基本规律是:算法的成功来自于它与问题结构的匹配,强行让一个模型处理多个不同任务可能导致所有任务都表现平平[38][39] - 多任务学习可能存在**负迁移**问题,即不同任务的梯度互相冲突,拖累整体性能[40][41] 实现SAI的技术路线 - 技术路线基于三个关键词:**自监督学习**、**世界模型**、**模块化系统**[43] - **自监督学习**不依赖人类标注,而是从大量真实世界数据中学习底层结构[44] - **世界模型**让AI在内部构建一个“世界的模拟器”,使其能够预测未来、进行规划,从而在没有明确训练的情况下完成新任务[45][46] - **模块化架构**意味着未来AI更可能是一系列相互协作的系统,而非一个万能模型,论文明确反对“统治一切”的单一模型架构,尤其是自回归范式的下一个token预测[47][48]
扩散模型终于学会「看题下菜碟」!根据提示词难度动态分配算力,简单题省时复杂题保画质
量子位· 2026-03-09 18:05
文章核心观点 - 中国联通数据科学与人工智能研究院联合高校提出的新框架“轨迹链”(CoTj),通过赋予扩散模型动态规划能力,实现了对文生图/视频模型计算资源的智能分配,在极低计算步数下显著提升生成质量,证明了“路径规划”比“求解器优化”更为关键 [4][23][35] 技术原理与创新 - CoTj框架的核心创新是让扩散模型拥有了类似“系统2”的规划能力,能够根据提示词的复杂程度动态分配计算资源,解决了传统方法固定步数采样导致的“简单题算力过剩,复杂题细节崩坏”问题 [1][2][4] - 团队通过提取名为“Diffusion DNA”的低维结构化特征,量化每个去噪阶段的难度,成功将高维复杂的采样过程转化为有向无环图上的最短路径优化问题,克服了“状态维度灾难” [8][9][11] - 该框架采用“预测-规划-执行”推理范式:首先通过极轻量级预测器快速预判难度,然后基于图论进行全局轨迹规划,最后动态执行算力分配 [14][15] 性能表现与实验结果 - 在极端加速场景下,CoTj展现出颠覆性优势:在仅5步的极端压缩下,CoTj规划出的轨迹配合最朴素的1阶Euler求解器,其生成质量(GenEval 0.626)超越了传统固定调度配合高阶UCGM求解器的方案(GenEval 0.528) [4][23][24] - 当CoTj规划配合高阶UCGM求解器时,在5步下能达到GenEval 0.775,在10步下能达到0.850,证明了正确规划与高阶求解器结合能达到最佳效果 [24] - 在轨迹可达性方面,10步的CoTj轨迹其重构质量(MSE减少超60%,PSNR提升超6dB)能媲美或超越传统固定分配的数十步结果 [25][28] - 在缓存自适应方面,CoTj能根据预测的DNA引导Cache更新节点,精准锁定高信息密度区域进行计算复用,在25步预算下,其性能(PSNR 35.20)反超了专门针对缓存优化的LeMiCa算法(PSNR 32.77) [27][28] 跨模态应用与扩展发现 - 在视频生成任务中,CoTj应用于Wan2.2模型测试,发现了“生成层级”逻辑,即在极限压缩下采取“保真度优先”策略,先稳定空间结构再释放动态效果,从而在40步充足预算下实现运动平滑度和动态逼真度的全面反超 [29][31] - Diffusion DNA特征可作为模型诊断工具,通过分析分步重建增益曲线,能揭示模型的内在收敛性,例如发现某些蒸馏模型在迭代后期仍保持高更新能量,存在“过度烹饪”和结构不收敛的隐患 [32][34] 未来展望与行业影响 - CoTj框架被视为将生成式AI从被动执行引向“资源感知规划”的里程碑式探索,标志着扩散模型“系统2”深思熟虑时代的开启 [35][37] - 团队指出了未来的研究方向,包括扩展到更复杂的视频动态建模、引入在线反馈机制进行轨迹修正,以及探索跨模态下无监督的Diffusion DNA发现 [36] - 该研究的论文已在arXiv发布,推理代码也已开源 [5][37]
可微奖励就该直接微调!用HJB方程颠覆流匹配对齐|NeurIPS'25
量子位· 2026-03-09 14:05
文章核心观点 - 提出了一种名为VGG-Flow的新方法,用于微调扩散模型,该方法绕过了传统的强化学习框架,将奖励微调重新表述为一个连续时间最优控制问题,通过求解Hamilton–Jacobi–Bellman方程,直接将可微奖励转化为价值梯度,从而为流匹配模型的对齐提供了一条更稳定、更鲁棒的路径 [3][26] 技术背景与现有方法局限 - 当前大规模生成模型对齐的主流做法依赖强化学习,在奖励函数上微调模型以贴近人类偏好 [3] - 主流方法主要分为两类:一是将模型视为黑盒,通过将ODE采样过程转为随机SDE来适配强化学习框架,使用高方差的策略梯度方法;二是通过近似手段优化某些取样步的奖励值,但缺乏严格理论支撑且易导致过拟合与模式坍塌 [3] VGG-Flow核心方法论 - 核心思路是将微调目标定义为最大化“终态奖励”减去“累计代价”,其中累计代价约束微调模型与预训练模型在取样路径上的偏差 [4][7][8] - 通过最优控制理论,将问题转化为求解价值函数,其演化满足Hamilton–Jacobi–Bellman方程,并推导出最优微调方向等于价值函数的梯度 [9][10][11] - 该方法无需采样优势函数、计算对数概率比或进行策略比值裁剪,只需估计价值梯度即可直接、可微地更新模型 [12] 参数化与优化设计 - 引入了Forward-looking参数化方法,利用一步Euler前推预估终点,并用其奖励梯度对价值梯度进行参数化,使模型在训练初期具备合理引导方向 [14][15] - 即使不学习参数化中的残差项,仅依赖奖励梯度的引导也能实现明显的对齐效果,这显著降低了计算成本 [16] - 优化目标包括梯度匹配损失、价值一致性损失和终端边界损失,当不学习价值梯度中的残差项时,仅需优化梯度匹配损失 [17][19][20] 实验效果与性能 - 在Stable Diffusion 3上的实验表明,仅需400次更新,VGG-Flow即可实现奖励信号的稳定提升 [21] - 在Aesthetic和PickScore指标上,该方法展现出较高的收敛效率与良好的多样性保持能力 [21] - 相比ReFL、DRaFT等方法,VGG-Flow表现更为稳健,更不易遗忘预训练模型中的先验,生成结果更加自然,且无需将ODE转换为SDE [21] - 实验结果显示,该方法在奖励值、DreamSim多样性与CLIP多样性等指标上表现优异,同时保持了较低的FID [23][25] 总结与影响 - VGG-Flow通过学习空间中每一点的价值函数梯度,并使速度场向其对齐,实现了结构一致的可微奖励微调 [26] - 由于优化目标是匹配局部梯度而非直接最大化终态奖励,该方法在实践中表现出更好的稳定性与鲁棒性 [26] - 该方法为基于可微奖励函数的高效微调提供了一种新的思路,相关研究已被NeurIPS 2025接收 [3][26]
“最美PM”宋紫薇获红杉蚂蚁投资,创业方向略有调整,转向AI护肤
量子位· 2026-03-09 14:05
公司融资情况 - 公司近期完成了新一轮融资,投资方包括红杉中国、蚂蚁集团、蓝驰创投、九合创投、鼎晖投资等知名机构 [2][3][8] - 公司注册资本由125万元人民币增至约173万元人民币,增幅约38% [3] - 本轮融资的轮次和金额尚未由官方正式披露,不同渠道信息存在矛盾,轮次有天使+轮、Pre-A轮、A轮等说法,金额则存在“数千万元”与“超亿元”两种说法 [4][7][9][10][11] 公司业务与战略 - 公司由前vivo产品经理宋紫薇于2024年创立,定位为一家以AI Agent为核心的智能硬件创新企业 [1][5][15] - 公司最初曝光的产品方向是面向年轻人群、集成AI图像处理与审美建议的AI智能化妆镜 [6][19] - 公司近期已调整主要押注的赛道,从AI化妆镜转向“AI护肤”领域,产品核心从妆效呈现转向提供护肤服务 [17][20] - 公司的创业策略是避开座舱、手机等红海市场,在私密、高频的生活场景中寻找新的刚需硬件入口 [21][23] - 公司的商业逻辑本质是利用审美溢价来对冲硬件同质化 [24] 创始人背景 - 创始人宋紫薇出生于1994年,本科毕业于上海大学物理学专业,曾先后任职于华为和vivo [25][26][27] - 在vivo旗下iQOO品牌担任产品经理期间,因在发布会上的专业表现和出众气质获得广泛关注,被称为“最美手机产品经理” [27][29] - 宋紫薇曾担任iQOO乃至vivo旗舰产品发布会的主讲人,具备个人流量和影响力 [31] - 2023年从vivo离职后曾短暂加入理想汽车,后于2024年创立当前公司 [32][35][38] - 其创业风格带有鲜明的大厂产品经理烙印,核心竞争力在于对年轻消费者审美心理的精准捕捉以及对复杂技术的应用层翻译 [22]
卡帕西开源Agent自进化训练框架,5分钟一轮实验,48h内揽星9.5k
量子位· 2026-03-09 14:05
项目概述 - 大神Karpathy开源了一个名为“autoresearch”的AI科研循环系统项目,其核心是让智能体完全自主地进行科研工作[1][2] - 项目框架极其精简,总代码量仅为630行,且仅需单个GPU即可运行[3] - 项目发布不到两天,在GitHub上已获得超过9.5k星标,相关X帖子浏览量超过580万次[6][8] 核心原理与设计 - 项目核心思路是将AI训练中的循环试错过程自动化,实现“修改-训练-评估-决策”的自主循环[13] - 系统基于nanochat模型训练,并设定了两条核心规则:每次实验的纯训练时间固定为5分钟;评估指标仅使用`val_bpb`(数值越低代表模型效果越好)[15] - 整个代码库由三个核心文件驱动:`prepare.py`(定义训练常量与工具)、`train.py`(AI可修改的训练核心文件)、`program.md`(人类编写的指令文件)[17] 工作流程与效率 - 工作流程始于人类在`program.md`中编写指令,AI读取后对`train.py`进行针对性修改(通常每次1-2处),随后启动5分钟训练并依据`val_bpb`评分进行决策[29][30] - 若`val_bpb`分数降低(模型进步),则保留对`train.py`的修改作为下一次实验的基础;若分数升高,则回退到上一个最佳版本[30] - 该流程以5分钟为周期循环进行,理论上AI每小时可完成超过10组实验,效率远超人工[32] - 在一次近250轮的自主探索中,AI最终筛选并保留了29次有效的优化改进[33] 未来愿景与社区协作 - 项目未来目标是模拟整个博士生研究社群,实现大规模、分布式、异步的群体智慧探索,灵感来源于SETI@home项目[35][38] - 当前AI研究智能体受限于以单一master分支为核心的线性开发模式,限制了其潜力[39][41] - 未来的理想路径是让代码仓库像种子一样,向不同研究方向和计算平台伸展出无数分支,形成分布式探索态势[41] - 实验探索包括让智能体将研究成果发布在GitHub Discussion或通过PR提交精确commits,这些分支无需合并,可作为独立研究积累并相互启发[46][47][48] - 这旨在探索一种从“写软件”逻辑转向更灵活的“攒经验”逻辑的AI协作方式[49]
龙虾最大痛点被官方插件升级!对话永不忘记,GPT和Gemini最强模型都可接入
量子位· 2026-03-09 12:13
核心观点 - OpenClaw 发布了 2026.3.7 测试版,核心更新在于将上下文管理模块插件化,旨在解决长对话中模型“记忆力”下降、任务执行效率降低的问题,并通过官方示例插件 `lossless-claw` 展示了一种理论上可实现上下文“永不丢失”的新策略 [1][4][6][7][10][11][15] 更新内容总结 上下文管理插件化 - 新增 `ContextEngine` 插件插槽,提供完整的生命周期钩子,允许插件在上下文生成、压缩、拼接及子Agent生命周期管理的各个阶段介入 [7][8][9] - 改变了以往上下文管理逻辑写死的状况,使系统核心不再固定压缩逻辑,不同插件可实现不同的上下文管理策略 [9][11] - 官方重点推荐的插件 `lossless-claw` 展示了一种新思路:旧对话不被删除,而是持久化存储并生成摘要,通过摘要与原始消息关联,Agent可随时回溯原文,理论上实现上下文“永不丢失” [12][14][15] - 在 OOLONG benchmark 测试中,使用同一模型时,`lossless-claw` 得分为 74.8,高于 Claude Code 的 70.3,且上下文越长,优势越明显 [17][18] - 插件作者表示在实际运行一周后,其表现“被低估了”,效果显著 [19] Agent路由能力升级 - 针对 Discord、Telegram 等平台,引入了持久化线程绑定机制,系统重启后 Agent 与频道或话题的绑定关系依然可保留 [3][20] - 支持按主题路由 Agent,例如在 Telegram 的同一个群组中,不同话题可运行各自独立的 Agent,执行不同任务 [20] 部署与工程化优化 - 更新了 Docker 多阶段构建,新增 `bookworm-slim` 版本,通过 Slim 镜像减少依赖,使容器体积更小、启动更快,更适合大规模服务器部署 [24] - 新增用于网关认证的 `SecretRef` 功能 [3] - 支持 HEIF 图像格式,并修复了 Zalo 渠道问题 [3] - 公司已开始为 iOS App Store 发布做准备,移动端版本正在筹备中 [22]
龙虾最佳适配模型,OpenClaw之父给出了推荐
量子位· 2026-03-09 12:13
PinchBench榜单概况 - 榜单名为PinchBench,是专为评估大模型对OpenClaw适配程度而设计的实时更新评测工具,从成功率、速度和价格三个核心维度进行排名[1][3][6] - 该榜单由一家名为Kilo AI的Agent基础设施创业团队推出,并非传统大厂的标准基准测试[22][25] - PinchBench的评测定位更接近“Agent能力测试”,侧重于评估模型在包含约23个真实任务的工作流中的执行能力,而非传统的知识问答或数学推理[25][26] 中国模型在榜单中的表现 - 在成功率方面,国产模型表现突出:榜单中成功率排名第二和第三的分别是MiniMax M2.1 (93.6%) 和Kimi K2.5 (93.4%),仅次于第一名谷歌Gemini 3 Flash (95.1%)[7][11] - 在速度方面,国产模型MiniMax M2.5以105.96秒的最佳时间位列榜首,超越了谷歌Gemini 2.0 Flash (106.05秒) 和Meta Llama 3.1 70B (106.14秒) 等国际模型[10][12] - 在价格方面,国产模型与国际领先模型相比缺乏优势:最具性价比的模型是OpenAI的GPT-5-nano,输入价格低至0.05美元/百万tokens;而国产模型中最便宜的MiniMax M2.1,输入价格约为0.3美元/百万tokens,输出价格约为1.2美元/百万tokens,平均价格约为前者的3倍[14][15][16] - 综合成功率和价格的最佳平衡点分析显示,在表现不错的8个模型中,有4个是中国模型[18][20] 评测机制与行业洞察 - PinchBench的评分机制结合了自动化检查和LLM评审:部分任务通过脚本自动检查结果,另一部分任务则由LLM Judge来评判质量[29] - 该评测揭示了一个重要行业现象:在面向真实任务流程的评估中,更大的模型并非总是表现更好,那些针对Agent优化或推理效率更高的模型排名可能更靠前[31] - PinchBench是一个完全开源的工具,用户可以在平台上自行运行或添加新任务进行测试[33]
一年一度最值得关注的AI榜单来啦!申报即日启动
量子位· 2026-03-09 12:13
行业趋势与峰会背景 - 中国生成式AI行业正从技术探索阶段进入产业深度融合与广泛应用的“产业深水区” [1] - 生成式AI已从“新技术”演变为“新工具”,并进一步成为企业必须面对的现实,其影响范围从内容生产扩展至研发效率、营销方式、团队协作及决策流程 [1] - 行业正处在一个关键分水岭,AI已从“观望期”迈入“全民参与期”,从实验室参数和发布会概念转变为短视频创作工具、手机助手等大众日常应用 [16][17] 2026中国AIGC产业峰会 - 峰会将于2026年5月在北京举办,主题为“@所有人,马上AI起来”,聚焦“如何用好AI” [17] - 峰会旨在邀请AI创业者、开发者和资深玩家,共同探讨如何将AI技术讲清楚、用起来、跑起来,推动更多人迈出实际应用的第一步 [17] - 峰会将公布“2026年度值得关注的AIGC企业”和“2026年度值得关注的AIGC产品”的评选结果 [1][6] 2026年度值得关注的AIGC企业评选 - 评选目标是发掘拥有最创新、最前瞻或最有规模落地潜力的AI企业 [4] - **参选条件**:公司主体或主营业务在中国;主营业务是生成式AI或已广泛将AI应用于主营业务;近一年在技术/产品、商业化方面有出色表现 [7] - **评选维度**:涵盖技术维度(技术实力、研发能力、创新性)、产品维度(产品创新性、市场适配性、用户体验)、市场维度(商业模式、市场规模、营收情况)和潜力维度(核心团队实力、品牌潜力) [12] 2026年度值得关注的AIGC产品评选 - 评选目标是发掘拥有最创新、最实用、最热门或最有应用潜力的AI产品 [10] - **参选条件**:产品主要功能基于生成式AI能力;产品技术成熟且已投放市场,具有一定用户规模;近一年有重要的技术创新或功能迭代,推动了应用落地并对行业有影响力 [13] - **评选维度**:涵盖产品技术力(技术先进性、成熟度)、产品创新力(功能、场景、体验的独特性)、产品表现力(用户反馈、市场表现)和产品潜力(生态、市场扩展潜力) [13] 评选流程与参与方式 - 评选报名自即日起开始,截止日期为4月27日,最终结果将于2026年5月的中国AIGC产业峰会上公布 [14] - 企业可通过指定的网页链接或扫描二维码进行报名 [14][16] - 评选将结合对公司的深入调研及数十位行业知名专家的意见进行 [1]
打败GPT-5.2,嵌入真实工业生产,这个大模型什么来头?
量子位· 2026-03-09 12:13
文章核心观点 - 通用大模型在真实的工业工程场景中存在能力边界,其“聪明”不足以应对工业对合规、严谨、可靠的核心要求 [4][5][6] - 思谋科技自研的工业垂类大模型IndustryGPT通过三场针对性“考试”和实际落地案例,证明了其在工业专业知识深度、工程决策能力和产线嵌入执行方面的显著优势,代表了从“通用智能”转向“可执业智能”的技术方向 [3][7][26][44] - 工业场景对大模型的“验收标准”正在发生根本性重构,从关注参数规模和通用智能转向强调边界控制、规范遵从和任务执行三项核心能力,这要求模型从底层训练范式进行重构,而非简单的通用模型微调 [38][45][47][49] - 中国制造业需要的AI是能够嵌入产线、按规范干活并对结果负责的“赋能”型AI,其价值在于落地而非炫技,这与国家政策推动的“高水平工业智能体”方向一致 [50][53] 通用大模型在工业场景的局限性 - 即便如GPT-5.2 Thinking (high)、Gemini-3.1-Pro等顶级通用大模型,在面对真实的工业工程语境时也并不得心应手 [2] - 通用大模型在工业场景中存在“工业盲区”,在常识层面表现良好,但在规范遵从、边界控制、复杂决策等工业刚需上稍逊一筹 [7][26] - 目前主流通用模型和真实产业需求之间,存在系统性的错位 [52] IndustryGPT的评测表现与优势 - **第一场考试:工业知识广度** - 在权威开源中文数据集SuperGPQA的工业相关题目子集测试中,IndustryGPT取得同类模型中的SOTA,在工业专业知识的广度和问答准确率上超越了GPT-5.2 Thinking (high)、Gemini-3.1-Pro等顶尖通用模型 [9] - 这表明其构建了工业专业知识上的核心竞争壁垒,解决了通用大模型“工业知识浅、专业问答错漏多”的基础问题 [11] - **第二场考试:工业知识深度** - 在思谋自建的、题目总数超万条的系统化工业知识基准评测数据集(覆盖12个子领域及多个核心工程学科与典型行业)中,IndustryGPT表现出色 [13][14] - 特别是在模拟真实复杂决策场景的“困难问题”子集上,IndustryGPT实现了超过20%的相对性能提升,而GPT-5.2 Thinking (high)和Gemini-3.1-Pro则表现不佳 [15] - **第三场考试:工程执业资格能力** - 在思谋构建的全球首个以执业资格难度为标尺、以工程强制规范为刚性约束的评测基准中,IndustryGPT在电气、机械、化工、土木等核心工程学科测试中均取得SOTA结果 [20][22][24] - 其在法规条文精确引用、规范一致性、跨规范冲突处理、工程假设合理性控制等关键指标上领先,综合推理评估与辅助决策能力逼近真实执业工程师水平 [24][25] IndustryGPT的实际落地应用与效果 - 通过与智能体(Agent)技术深度融合,实现了感知-决策-执行的完整闭环,能够嵌入生产系统成为业务流程的一部分 [27][28] - **工业质检**:依托SMore ViMo(行业模型+Agent),将客户从项目启动到可运行模型的落地周期从行业平均14天压缩至3天以内,在质检环节中效率飙升200% [28][29] - **轨道交通复杂工艺制造**:基于历史制造方案和个性化需求,自动生成包含详细操作步骤、关键控制点及工序设计的完整制造方案,通过人机协同实现全流程智能化设计,效率提升15%以上,并显著降低变更风险 [30][31][32][33][34] - **复杂产线智能管理**:在涉及超2.9万种产品型号的复杂产线中,构建闭环智能流程,从异常扫码识别到自动建单、匹配SOP、调用历史案例并生成诊断建议,全程只需5秒 [35][36] - 这些案例表明,行业模型“能做”且能负责,而通用模型“能说”但不敢用 [37] 工业大模型的核心能力与验收标准重构 - **边界控制能力**:工业环境要求模型在规范约束和安全边界内运行。IndustryGPT引入“规范一致性奖励模型”与“计算过程奖励模型”,对中间推理步骤是否符合工程标准进行细粒度评估,从而形成对安全边界和数值精度的稳定偏好 [39] - **规范遵从能力**:工业生产有严格的强制性规范。IndustryGPT对工业知识体系进行结构化重构,在训练阶段便形成“规范优先”的知识表达方式,使其在回答问题时天然遵循工程语境 [40][41] - **任务执行能力**:工业场景需要能执行的AI。IndustryGPT的Agent架构使其能够调用工具、拆解任务、执行流程,将抽象理解转化为可执行的工程流程,实现“认知+执行”一体化 [42][43] - 这三项能力正成为工业客户评估AI供应商的新标准,且难以通过通用模型的后期微调实现,必须从底层训练范式开始重构 [45][49] 工业AI的技术路线与行业趋势 - 当前主流技术路线分为“通用大模型+行业微调”和“原生工业垂类大模型”两派,分歧点在于对“验收标准”的不同理解 [46][47] - 若标准是“能嵌入产线、能按规范干活、能对结果负责”,则需具备边界控制、规范遵从、任务执行能力,这要求从底层训练范式进行重构,原生适配工业规则 [49] - 政策层面,工信部等八部门印发的《“人工智能+制造”专项行动实施意见》明确提出到2027年“推出1000个高水平工业智能体”,定调了要能执行的AI [50] - 行业竞争正从“参数竞赛”转向“落地验收”,贴合产业需求的原生垂类大模型是实现技术落地的核心抓手 [51][52]
科研AI出了个狠角色:开源30B小模型,硬刚Gemini和Claude
量子位· 2026-03-09 10:01
公司核心产品与技术 - 公司UniPat AI发布了一个名为UniScientist的开源项目,这是一个参数为30B的模型,旨在实现“提出假设-收集证据-执行可复现的推导-迭代验证直至结论成立”的完整科学研究闭环[2] - 该模型的核心突破在于将人工智能建模为一个动态系统,并通过自主构建的数据引擎,将开放式的科研难题转化为可验证的“单元测试”[5] - 模型在FrontierScience-Research和ResearchRubrics等权威科学研究榜单上,其表现匹敌甚至超越了参数量大一个数量级的顶尖闭源模型[3] 技术原理与创新 - 模型解决了当前AI在科研任务中普遍存在的“叙事推理”和从“结论”出发的逻辑陷阱问题,实现了真正的“自主科学研究”能力,能够在开放问题中提出假设、证伪推论、修正路径并沉淀为结构化成果[7][8][9][10] - 其数据引擎采用了“进化式多学科合成”方法,将开放式科研成果分解为多个封闭的、可独立验证的Rubric检查项,每个检查项都追求原子化、客观、可证据落地或可形式化推导[24][25][26] - 模型引入了“成果聚合目标”作为额外的训练目标,使模型学会比较、取舍和整合多份候选科研成果,从而产出更完整、更稳健的最终成果,这相当于将“集体科研智能”写入了训练过程[33][34][35] 性能表现与评测结果 - UniScientist-30B-A3B模型(一个仅有3B激活参数的小模型)在FrontierScience-Research评测中达到28.3分,超越了Claude Opus 4.5(17.5分)、Gemini 3 Pro(12.4分)、GPT-5.2 xhigh(25.2分)以及DeepSeek V3.2 w/tools和Seed 2.0 Pro w/tools(均为26.7分)[36][38] - 在成果聚合模式下,该模型的得分进一步提升至33.3分[37] - 在多项分布外的基准(如DeepResearch Bench、DeepResearch Bench II和ResearchRubrics)上,UniScientist的表现与一系列顶级闭源系统实力相当[39] - 即使在无工具的评测条件下,模型性能仍有显著提升,这表明其研究推理能力本身通过训练得到了增强,而非单纯依赖工具使用[40][41] 数据与训练 - 公司构建了高质量的训练数据集,其关键原则是让模型负责规模与多样性,让人类专家负责质量与可验证性[14][16] - 当前数据集已包含超过4700个研究级实例,每个实例附有20+条Rubric项,覆盖50+学科和400+研究方向,专家标注平均每条样本投入1-2小时[26] 未来发展方向 - 系统目前集成了代码解释器,将研究流程从叙事式推理升级为“测试-修正”的循环,但其能力主要集中在可复现推理与仿真计算范围内[44][45] - 公司明确下一步方向是将框架扩展到对真实实验与计算基础设施的受控编排与执行,包括大规模GPU任务的可靠调度以及湿实验流程的协调,以加速科学发现[46][47]