Workflow
量子位
icon
搜索文档
小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟
量子位· 2026-01-11 12:02
研究背景与作者 - 研究由知名开源项目OpenEvolve的作者Asankhaya Sharma及其团队进行,该作者在AI/ML领域有显著成就,包括率先关注大语言模型的“推理时计算”并发表论文,以及开源了OptiLLM、OpenEvolve、Adaptive Classifier等知名项目 [7][8] 核心发现:模型“形状”比架构更重要 - 对于约70M参数的小模型,架构的重要性远低于普遍想象,相比之下,模型的“形状”(即深度与宽度的比例)更为关键 [1] - 在70M参数模型范围内,测试了包括LLaMA3、Qwen3、Gemma3在内的12种不同现代架构,发现它们的平均性能差异不到2%,表现惊人地相似 [26] - 现代架构的改进(如RMSNorm、RoPE、GQA)是为70亿以上参数的模型设计的,在70M参数规模下无法带来可衡量的优势 [27] - 这意味着对于小模型,精心调整的“深度-宽度配比”比选择具体的架构变体更重要 [27] 层数“玄学”与隐藏维度的关键作用 - 研究发现模型层数存在“玄学”:12层、32层、64层效果良好,而16层、24层、48层效果糟糕,其中最佳层数为32层 [2][15] - 效果“好”的层级(12L、32L、64L)平均得分约38%,效果“糟”的层级(16L、24L、48L)平均得分约32%,两个层级阵营之间的平均差距超过6个百分点 [15][16] - 这一现象背后的关键因素是“隐藏维度”,模型的隐藏维度必须大于或等于512,这是一个基础门槛 [3][18] - 当隐藏维度小于512时,模型性能会显著下降,除非其深度处于特定的“补偿”位置 [20] - 32层是“黄金补偿点”,在隐藏维度为384的情况下,32层配置取得了所有测试配置中的最高平均得分38.50%,甚至略胜于标准的12层设计(隐藏维度512,得分38.15%) [16][20][23] - 64层则属于“暴力补偿”,通过极深的层数来弥补宽度(隐藏维度256)的不足,从而也取得了约38.21%的高分 [20][16] 扩散模型的竞争优势 - 在测试的架构中,扩散模型(如dLLM, Dhara)的平均准确率(约31%-32%)略低于自回归模型(约32%-33%) [28][29] - 但扩散模型在推理速度和事实准确性(幻觉率低)方面具有显著优势 [30] - 扩散模型的推理速度比传统自回归模型快3.8倍,非常适合批量任务处理 [31] - 在所有测试架构中,扩散模型在衡量真实性的TruthfulQA基准上得分最高,dLLM-Canon模型达到了49.27% [33][34] - 通过一种称为“Canon层”(一种精心设计的卷积层)的特殊结构,可以进一步提升模型的事实准确性,为普通模型提升约1%,为扩散模型提升超过2%,而参数开销仅增加0.13% [35][36] 高效模型转换方法与新模型发布 - 利用LLaDA 2.0论文中的Warmup-Stable-Decay方法,可以将现有的自回归模型高效转换为扩散模型,所需数据量、成本和训练时间仅为从头训练的十分之一 [38][39] - 这种转换方法不仅结果与从头训练相当,而且在多项基准测试上超越了后者 [39] - 基于所有研究发现,团队推出了集大成的Dhara-70M模型,该模型参数为71.34M,采用32层(黄金深度)和384隐藏维度的最佳形状配置 [41][44] - Dhara-70M的构建方法是:首先采用最佳的自回归架构,然后使用WSD方法将其转换为扩散模型,从而兼具自回归模型的知识储备和扩散模型的吞吐量与事实性优势 [42][43] 对小模型构建者的实践启示 - 对于资源有限的小语言模型构建者,不应盲目追求最新的架构改进,而应首先关注基础的“深度-宽度配比”,确保模型不落入性能低下的“死亡区域” [45] - 如果应用场景需要高速处理且对事实准确性要求高,那么扩散模型是一个极具竞争力的选择 [45]
「AI 100」榜单启动招募,AI产品“年会”不能停丨量子位智库
量子位· 2026-01-11 12:02
2025年中国AI产品市场发展态势 - 2025年国内AI产品领域涌现多个关键趋势,包括深度思考、Agentic AI、多智能体协作、多模态生成和端侧AI [4] - 多个颠覆性产品引领各技术方向:DeepSeek凭借强推理和透明化思考引领智能助手迭代;Manus实现从“思考→规划→执行→交付”的全链路自主任务处理,成为“真正意义上的通用AI Agent”;Lovart等产品通过多智能体协作实现高效任务处理;即梦AI等在多模态生成上取得进步;豆包AI手机实现了系统级AI智能体与操作系统的深度集成,重构人机交互范式 [4] 量子位智库「AI 100」榜单概览 - 榜单旨在对过去一年中国AI产品发展进行全景式检阅,并深度洞察未来AI产业格局,目标是找到代表中国AI实力的巅峰力量 [4] - 榜单共分为三大板块:代表最强综合实力的「旗舰AI 100」、最具未来潜力的「创新AI 100」和十大热门赛道的代表产品 [6] - 「旗舰AI 100」聚焦2025全年表现,评选综合能力最强的100款AI产品,这些产品需在技术上实现突破并在实际应用场景中展现巨大价值 [7] - 「创新AI 100」旨在挖掘在2025年崭露头角、具备2026年爆发潜力的创新产品,这些产品代表了AI技术的前沿方向 [8] - 十大细分赛道TOP3评选将聚焦行业核心赛道,包括:AI浏览器、AI Agent、AI智能助手、AI工作台、AI创作、AI教育、AI医疗、AI娱乐、Vibe Coding和AI消费级硬件 [9] 「AI 100」榜单评估体系与内容 - 榜单采用定量与定性相结合的双重评估体系以确保客观性和准确性 [13] - 定量评估以真实用户数据为基础,涵盖用户规模、用户增长、用户活跃、用户粘性四大核心维度,包含下载总量、新增下载、活跃用户数、留存率等超过20个具体指标;硬件产品则考察出货量 [13] - 定性评估聚焦长期发展潜力,通过专家评估和用户调研,综合考量产品的底层技术、市场空间、功能设计、变现潜力、团队背景、增长速度等多重因素;硬件产品考察具体功能设计和实际使用体验 [13] - 除榜单外,周边内容还包括数据解读文章、分赛道产品解析、1v1 AI产品深度访谈等 [14] - 量子位智库已对外公开自研梳理的国内AI产品知识库,提供对国内AI应用生态全景式、结构化、实时更新的梳理 [15]
DeepSeek等8大产品都是意外?! 改变世界的项目们,最初都没被“当个事儿办”
量子位· 2026-01-11 12:02
文章核心观点 - 文章核心观点认为,许多改变世界的知名产品最初都起源于不被重视的“支线项目”,这些项目因非KPI驱动、非战略立项而拥有更大的创新自由度和试错空间,最终成功逆袭成为公司核心产品或行业标杆 [1][2][3] - 在AI时代,由于技术降低了试错成本,个人或小团队通过支线项目进行探索和验证的效率大幅提升,这使得关乎未来方向的早期信号可能越来越多地出现在这类项目中 [37][42][53] 支线项目的定义与特征 - 支线项目被定义为非主线、非KPI驱动、最初非战略立项的项目,其成立之初对公司战略并不重要 [2] - 这类项目因不受项目经理、销售、合规、股东等约束,被认为是“魔法生效的地方”,拥有更大的自由度和创新潜力 [3] 国内支线项目案例:DeepSeek与Qwen - **DeepSeek**:是量化投资公司幻方量化内部的支线项目,最初作为服务于量化交易的技术研究自然延伸而出,并非战略立项 [11][12] - 公司因量化交易背景,拥有丰富的GPU算力资源和金融场景数据优势,为AI研发提供了坚实基础 [14][15][16] - 项目绕开了创业项目常见的节奏、融资等约束,允许技术跑在需求前面 [13] - **Qwen**:是阿里巴巴的支线项目,在公司早期战略更侧重于ToB大模型商业化交付的背景下,坚定走上了开源道路 [20][21] - 项目负责人指出,支线项目通过减少过度决策和微观管理,将自主权交还给研发人员,从而提高了成功几率和迭代速度 [22][23][24] - 公司采取“放养”策略,在项目证明价值后再逐步融入主线资源 [25][26] 硅谷支线项目案例:Claude Code与ChatGPT等 - **Claude Code**:最初是Anthropic工程师Boris Cherny基于Claude大模型的一个实验性支线项目,旨在与系统文件交互 [27][28][30] - 项目面市后产生暴风式传播,成为公司当家产品之一 [32] - 工程师记录显示,该项目已深刻改变其工作流程:在过去30天里,其使用Claude Code提交了259个PR、497次提交,添加了40000行代码,删除了38000行代码,Claude能持续运行数分钟至数天 [34] - **其他案例**:文章列举了多个源自支线项目的全球知名产品,包括OpenAI的ChatGPT、Meta的PyTorch、Google的Gmail、Odeo的Twitter(现X)以及Tiny Speck的Slack [4] AI时代支线项目的趋势与价值 - **试错成本降低**:AI加速进入软件工程流程,显著拉低了试错成本,使个人能更轻松、迅速地完成初步验证,缩短了从想法到验证的距离 [37][38][42] - **探索模式改变**:探索不再必须作为正式立项行为,许多支线项目始于解决具体问题,通过真实使用不断修正方向而最终成长为重要产品 [39][41][43] - **个人价值放大**:当试错足够便宜,能否被迅速使用和反馈变得更重要,这直接放大了个人探索的价值 [44][45] - **与主线项目的关系**:支线项目探索成本低、反馈快,能为主线项目在方向被验证后承接规模化任务打下基础,但AI并未同步提升战略判断的准确性,主线项目在技术环境变化时仍可能受原有判断束缚 [47][48][51]
姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲!基模四杰中关村论英雄
量子位· 2026-01-10 21:17
清华大学AGI-Next前沿峰会核心观点 - 峰会由清华大学基础模型北京市重点实验室发起,汇聚了智谱、Kimi、阿里等中国AI领域核心公司的领军人物,信息密度极高[1][4][5] - 核心讨论围绕大模型技术发展轨迹、当前范式转变(从Chat到做事)、未来AGI发展方向以及中美竞争格局展开[7][54] 大模型技术发展轨迹与范式转变 - 大模型智能水平发展轨迹类似人类成长:2020年前后解决简单问题,2021-2022年进入数学计算和基础推理,2023-2024年走向复杂推理并处理真实世界任务(如SWE-bench)[18][19] - 2025年模型整体能力仍在快速提升,但核心问题是从规模扩展(Scaling)走向真正的泛化能力[21][22][25] - DeepSeek的出现标志着“Chat”范式基本结束,行业共识是下一步从“对话”走向“做事”,让AI完成具体任务[7][32][33][34] - 智谱AI在2025年7月28日发布的4.5版本中,整合了Coding、Agentic和Reasoning能力,在12个Benchmark评测中取得领先,但面对真实复杂任务(如一句话生成植物大战僵尸游戏)仍频繁出Bug[37][38][39] - 通过引入可验证强化学习(RLVR)在真实编程和Web环境中获取反馈,智谱AI的模型在SWE-bench等评测中成绩提升,并于2025年底在ArtificialAnalysis榜单取得不错综合成绩[39][40][41][43] 智能体(Agent)与编程(Coding)能力发展 - 智能体的基础能力是编程,但复杂任务(如数十步、上百步的异步长链路任务)需要全新的能力形态[44][45] - 面对冷启动问题(缺乏现成数据),行业采用混合方案:对AI友好场景优先调用API,对人友好场景让AI模拟GUI操作,通过采集交互数据进行全异步强化学习[46][47] - 智谱AI在2025年12月开源了9B规模的AutoGLM模型,该模型在Agent任务上能力显著增强,但部分通用语言能力下降,显示出强化特定能力与保持通用性之间的权衡[51] - 代码能力发生质变:2021年模型写十个程序才能跑通一个,如今在复杂任务中往往可以一次性跑通,实质性辅助高级工程师工作[30][31] - 阿里通义千问在2025年专注于打造通用智能体(Generalist Agent),其Coding模型在SWE-bench评测中达到70分,并关注贴近实际生产任务[123][141][142][144] 模型架构与训练技术的创新 - Transformer成为主流架构的核心原因是在Scaling Law上表现优于LSTM,尤其是在长上下文(Long Context)场景下[94][95][97] - 模型架构迭代的目标是追求更高的Token效率(用更少的Token达到相同效果)和更强的长上下文能力,这两者是实现优秀Agent智能的关键[96][98][99][100] - Kimi团队在2025年采用MUON二阶优化器,相比传统的Adam优化器,实现了2倍的Token效率提升,相当于用50%的数据达到相同的Test Loss[100][102] - Kimi团队研发了kimi Linear架构(一种线性注意力机制)和kimi Delta Attention,旨在实现线性复杂度的同时,在长短程任务上的效果超越原始Transformer全注意力机制,并带来6到10倍的端到端速度优势[101][110][112][115] - 训练体系面临挑战,智谱AI开发了全异步强化学习训练框架来解决不同RL任务调度难题,并于2025年开源[41] 未来AGI发展方向与挑战 - 人类领先于当前模型的几类能力可能是突破方向:1) 原生多模态感统机制;2) 记忆与持续学习(从个体记忆扩展到文明级记忆);3) 反思与自我认知能力[57][59][61][63][64] - 参考人类双系统认知(系统一处理95%任务,系统二处理5%复杂任务),AI系统可规划为系统一(大规模模型)、系统二(推理机制)和自学习模块[65][66][67][68] - 未来的Scaling包含三个维度:1) 扩展数据与模型规模;2) 扩展推理(延长思考时间);3) 扩展自学习环境(增加与外界交互反馈)[74][75][76][77] - Transformer的O(N²)计算复杂度是瓶颈,需要寻找像人脑一样用更小“容量”承载更大知识量的新压缩方法和模型架构[78][79][80] - 行业思考的五层能力演进:从函数映射,到学会推理,再到具备自反思与自学习能力,最终可能发展出自我认知甚至意识[83][84][85][86][87] - 2026年及以后的重点方向包括:区分已知路径与未知路径的Scaling、推进全新模型架构解决超长上下文和知识压缩、重点发展多模态感统能力,并判断2025年可能成为AI for Science的重要突破年份[89] 中美竞争格局与行业分化 - 在Artificial Analysis榜单前五名中,蓝色模型几乎全部来自中国,说明中国在开源大模型领域已形成显著影响力[53] - 阿里通义林俊旸认为,中国想在AI赛道反超美国很难,20%这个数字已经很乐观[7] - 行业出现明显分化:1) to C 和 to B 市场分化。to C用户大部分时候不需要那么强的智能,而to B市场智能直接等同于生产力,用户愿意为最强模型支付高溢价(例如200美元/月 vs 50美元/月)[170][173][175][176] - 2) 垂直整合与模型应用分层出现分化。to C应用(如ChatGPT、豆包)模型与产品强耦合,垂直整合成立;但to B场景趋势相反,强大的模型层与专注应用层的公司可能各司其职[170][176] - 学术界与工业界需要协同:工业界领头疯跑后,学术界应跟进解决基础科学问题,如智能上界、资源分配平衡、持续学习中的噪音清理(类似人类睡眠机制)、以及“无免费午餐定理”等[182][183][184][185] - 腾讯姚顺雨指出,做Coding Agent消耗量在中国没有美国那么大,市场认知存在差异[181] 开源生态与公司实践 - 智谱AI自2019年成立以来持续推动开源,涵盖模型、工具和开发者API体系,2025年成为GLM的“开源年”,陆续开源了包括GLM-4.6、4.6V、4.5V等多条模型线[9][10][52] - 阿里通义自2023年8月3日开始做开源,开源了从1.8B到大规模模型等多种型号,初衷包括帮助资源有限的硕士生、博士生完成实验毕业,并响应手机厂商等客户需求[125][126][127][128] - 阿里通义在2025年支持119种语言及方言,并致力于服务全球用户,包括收集难度较大的非洲语言数据[136][137] - 阿里通义在2025年推出Qwen3系列模型,重点提升推理(reasoning)能力,并致力于打造全模态模型,集成文本、视觉、语音的理解与生成能力[134][135][158][159] - 阿里通义的视觉模型(VL)在2025年达到与235B语言模型持平的智力水平,解决了多模态模型常伴有的“变笨”问题,并增强了GUI操作、视觉推理等能力[145][147][148] - 阿里通义的图像生成模型Qwen-Image在2025年12月的版本相比8月版本有显著提升,生成图像更接近真人,并重点优化了图像编辑功能(如精确对象移除、光线调整)[152][153][154]
离开马斯克后,他把人形机器人做成了这样
量子位· 2026-01-10 14:36
公司及产品定位 - 公司矩阵超智于去年正式走到台前,其团队背景横跨特斯拉、英伟达、OpenAI等顶级技术体系,目标是AGI路线上的通用人形机器人 [3][4] - 公司最新产品MATRIX-3是一款主打安全、自主、可泛化的物理智能机器人,标志着人形机器人从“执行预设指令”迈入“理解并适应物理世界”的新阶段 [3][7] - 该产品的目标不止于专业场景,而是开始向日常生活领域迈进,旨在以最自然、最安全的方式融入人类的物理空间 [3][30] 产品核心能力与技术创新 - **仿生设计与感知新生**:MATRIX-3机身覆盖首创的三维编织柔性织物仿生肤质,内嵌分布式传感网络,能缓冲接触并感知位置与力度 [11][12] - **仿生设计与感知新生**:指尖集成高灵敏度触觉传感器阵列,可感知0.1N的压力变化,结合视觉系统形成视触觉感知系统,实现对易碎品、柔性物体的精细化操作 [15] - **灵巧操控与拟人步态**:搭载全新设计的27维自由度灵巧手“灵犀之手”,结合键绳驱动技术,实现轻量化与精准控制,可完成使用工具、操作精密仪器等复杂任务 [17][18] - **灵巧操控与拟人步态**:基于大规模人类运动数据开发的通用运动控制模型,使其行走、转身等姿态流畅自然,动力核心为一体化直线关节 [20][21] - **认知内核与零样本泛化**:搭载自主研发的全新神经网络架构,具备强大的零样本任务泛化能力,无需针对每个任务进行海量训练即可快速适应新环境与新技能 [23][24] - **认知内核与零样本泛化**:在数据驱动下,机器人能够自主规划抓取策略、避障路径并实时调整,完成需要手眼协调的复合任务 [25][26] 产品意义与商业进展 - MATRIX-3为人形机器人的规模化、实用化铺平道路,并为商业服务、制造业、物流、医疗辅助及未来家庭服务奠定了新的软硬件平台标准 [10] - 该产品是公司人形机器人走向成熟应用的关键里程碑,融合了仿生设计、灵巧物理执行与泛化AI,构建了为理解并作用于物理世界而生的智能体 [28][29] - 公司已针对特定行业合作伙伴开放早期体验计划,并预计于2026年启动首批试点部署 [31]
量子位编辑作者招聘
量子位· 2026-01-10 11:07
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并可实习转正[4][6] - 工作地点位于北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展(芯片、AI Infra、云计算)及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 需参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需访谈对话投资人、创业者、产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需撰写AI应用产品深度评测,并跟踪多终端新品发布(手机、PC、XR、车机等)[11] - 需对话访谈AI应用创业者、产品专家、终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并有强逻辑、体验表达和结构化能力[11] 加入公司的价值主张 - 员工可站在AI浪潮之巅,第一时间接触和了解AI领域最新技术和产品,构建完整认知体系[6] - 可将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉和视野[6] - 应届新人可获得主编级编辑的一对一指导[6] - 可加入扁平、简单、开放、多劳多得能者上位的活力团队[6] - 可获得行业TOP薪资待遇及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
「AI 100」榜单启动招募,AI产品“年会”不能停丨量子位智库
量子位· 2026-01-10 11:07
2025年中国AI产品市场概览 - 2025年国内AI产品领域涌现多个关键趋势,包括深度思考、Agentic AI、多智能体协作、多模态生成和端侧AI [4] - 多个颠覆性产品代表了这些趋势:DeepSeek凭借强推理和透明化思考引领智能助手迭代;Manus实现了从“思考→规划→执行→交付”的全链路自主任务处理,成为“真正意义上的通用AI Agent”;Lovart等产品通过多智能体协作实现高效任务处理;即梦AI等在多模态生成上取得进步;豆包AI手机则将系统级AI智能体深度集成于手机操作系统,重构人机交互范式 [4] 量子位智库「AI 100」榜单介绍 - 榜单旨在对过去一年中国AI产品发展进行全景式检阅,并深度洞察未来AI产业格局,目标是找到代表中国AI实力的巅峰力量 [4] - 榜单共分为三大板块:代表最强综合实力的「旗舰AI 100」、最具未来潜力的「创新AI 100」和十大热门赛道的代表产品 [6] - 「旗舰AI 100」聚焦2025全年表现,评选综合能力最强的100款AI产品,这些产品在技术上实现突破,并在实际应用场景中展现巨大价值 [7] - 「创新AI 100」旨在挖掘在2025年崭露头角、具备2026年爆发潜力的创新产品,这些产品代表了AI技术的前沿方向 [8] - 榜单对10个热度最高的细分赛道进行专项提名,每个赛道评选出TOP3产品,赛道包括:AI浏览器、AI Agent、AI智能助手、AI工作台、AI创作、AI教育、AI医疗、AI娱乐、Vibe Coding和AI消费级硬件 [9] 榜单评估体系与内容 - 「AI 100」是量子位智库推出的AI产品风向标系列内容,旨在全维度提供AI技术驱动下产品长期创新和变革的第三方参考,主要由「旗舰 AI 100」和「创新AI 100」构成,按季度发布 [12] - 榜单采用定量与定性相结合的双重评估体系以确保客观性和准确性 [13] - 定量评估以真实用户数据为基础,涵盖用户规模、用户增长、用户活跃、用户粘性四大核心维度,包含下载总量、新增下载、活跃用户数、留存率等超过20个具体指标;对于硬件产品则考察产品出货量 [13] - 定性评估聚焦长期发展潜力,通过专家评估和用户调研,综合考量产品的底层技术、市场空间、功能设计、变现潜力、团队背景、增长速度等多重因素;对于硬件产品则考察具体功能设计和实际使用体验 [13] - 除榜单外,周边内容还包括数据解读文章、分赛道产品解析、1v1 AI产品深度访谈等 [14] 相关资源与参与方式 - 量子位智库已对外公开自研梳理的国内AI产品知识库,提供了对国内AI应用生态全景式、结构化、实时更新的梳理 [15] - 榜单申报时间为即日起至2026年1月15日,榜单计划于2026年1月中下旬发布 [10]
吴恩达:图灵测试不够用了,我会设计一个AGI专用版
量子位· 2026-01-10 11:07
吴恩达提出“图灵-AGI测试”的背景与动机 - 2025年被行业视为人工智能工业时代的开端,其标志是模型性能创新、AI应用变得不可或缺、顶尖企业人才争夺激烈以及基础设施建设推动经济增长 [4][5] - 学术界与工业界频繁提及AGI概念,硅谷公司甚至为其设定季度目标,但AGI的定义缺乏统一标准,现有基准测试常误导大众高估当前AI水平 [6][7] - 为弥补AGI衡量标准的空白并校准社会期望,吴恩达计划在2026年推出新的“图灵-AGI测试” [1][8][29] “图灵-AGI测试”的核心设计与理念 - 测试旨在衡量AI的工作能力,其核心是让AI像人类一样智能,并完成大部分知识型工作 [13][14] - 测试对象(AI系统或专业人士)将在一台可访问互联网并配备浏览器、Zoom等软件的计算机上,完成裁判设计的“多日体验任务”,例如作为客服经过培训后执行接听电话工作并提供持续反馈 [15][17] - 只要AI能像人类一样熟练完成工作任务,即被视为通过测试,该测试聚焦于AGI的经济性和实际产出,更接近可用于工作和生产场景的普世定义 [18][19] 新测试相较于现有基准测试的优势 - 现有基准测试(如GPQA、AIME、SWE-bench)使用预先确定的固定测试集,导致AI团队针对测试集优化模型,造成榜单排名靠前但实际能力不足的现象,例如去年的Llama 4刷榜丑闻 [20][21][22] - 固定测试集只能衡量AI在狭窄领域的能力,而图灵-AGI测试允许裁判自由设计任意体验任务,不事先限定范围,更能判断系统在通用任务上的表现 [28] - 新测试比基准测试更能考验AI的通用能力,并为AI团队设定“完成人类工作”的具体目标,而非模糊的“实现人类级智能” [20][31] 行业现状与主要AI模型性能对比 - 根据提供的基准测试数据,主要大模型在多项能力上存在竞争,例如在图像推理(MMMU)任务中,Llama 4 Scout得分为69.4,Gemini 2.0 Flash-Lite为68.0,Gemma 3 27B为64.9,Mistral 3.1 24B为62.8 [23] - 在编码能力(LiveCodeBench)上,Llama 4 Scout得分为32.8,Gemini 2.0 Flash-Lite为28.9,Gemma 3 27B为29.7 [23] - 在推理与知识(GPQA Diamond)任务上,Llama 4 Scout得分为57.2,Gemini 2.0 Flash-Lite为51.5,Gemma 3 27B为42.4,Mistral 3.1 24B为46.0 [23] - 更大规模的模型如Llama 4 Behemoth在GPQA Diamond任务上得分达73.7,Gemini 2.0 Pro为64.7,GPT 4.5为71.4,Claude Sonnet 3.7为68.0 [24] - 在推理成本方面,每百万tokens(3:1混合)的推理成本,Llama 4 Maverick在$0.19-$0.49之间,Gemini 2.0 Flash为$0.17,DeepSeek v3.1为$0.48,GPT-4o为$4.38 [25] 推行新测试对行业的潜在影响 - 举办图灵-AGI测试即便可能以所有AI系统均未通过告终,也有助于平息对AGI的过度炒作,为AI领域创造更稳健的环境 [30] - 行业将能重新聚焦于非AGI级别的实际进步,例如开发有实用价值的应用,而非沉迷于实现AGI的营销噱头 [30] - 该测试为真正的AGI突破提供了可信的判定依据,若有公司通过测试,其成果将具备真实价值 [32]
智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了
量子位· 2026-01-10 11:07
文章核心观点 - 提出了一种名为SmartSnap的新型强化学习训练方法,旨在解决GUI智能体任务完成度难以验证的挑战 [6] - 该方法的核心思想是将智能体从被动执行者转变为主动自证者,使其在执行任务时主动收集并提交“证据快照集”作为任务完成的证明 [7][8] - 该方法通过强化学习训练,引导智能体在保证任务成功率的同时,提升所提交证据的质量,从而简化验证流程,并显著提升智能体在复杂任务上的性能 [6][14] 现有智能体验证机制的挑战 - 当前LLM/VLM驱动的智能体在完成任务后,其完成度难以评估 [2] - 传统的被动验证方法依赖庞大的监督系统,包括手工设计的复杂校验机制和轨迹级验证方法 [4] - 这些方法效率较低,难以泛化到新任务;冗长且带噪的轨迹会干扰LLM/VLM评判的可靠性;且依赖持续可观测的环境反馈,易因环境变化导致验证失败 [5][6] SmartSnap方法的三大核心突破 - **角色升级:双重使命的“自证代理”**:智能体不仅负责执行任务,还承担了自我验证的第二使命,会主动思考并收集证明任务完成的证据 [11][12] - **“3C原则”:高效率的证据美学**:为证据收集制定了完整性、简洁性、创造性三项原则,确保证据足以证明任务闭环,且只包含关键快照,必要时会执行额外操作以获取证据 [13][15] - **强化学习驱动:GRPO+内在奖励反馈**:利用GRPO算法和精心设计的奖励机制进行训练,在保证任务成功率的同时提升证据质量,并尽可能减少奖励黑客行为 [13][14] 性能表现与数据 - **性能显著提升**:在AndroidLab等复杂任务上,经过SmartSnap RL训练的不同规模模型均实现了显著的性能提升,最高提升达**26.08%** [16][17] - **具体模型表现**: - **LLaMA3.1-8B-Instruct模型**:经过RL训练后,任务成功率从基线的**5.07%** 提升至**31.15%**,提升**26.08%** [16] - **Qwen3-8B-Instruct模型**:经过RL训练后,任务成功率从基线的**10.14%** 提升至**36.23%**,提升**26.08%** [16] - **Qwen3-32B-Instruct模型**:经过RL训练后,任务成功率从基线的**18.12%** 提升至**34.78%**,提升**16.66%** [16] - **“以小博大”效应**:经过训练的中等参数模型(如Qwen3-32B),其表现可持平DeepSeek-V3、Qwen3-235B等更大规模的开源模型 [17] - **举证高效**:平均每个任务只需提交**1.5张**快照证据,极大降低了后端验证成本 [18] - **交互高效**:训练后智能体交互轮数不断减少 [18] 方法的价值与意义 - **简化RL训练准备**:在手机、OS等时效性强的操作环境中,传统外部验证器难以捕捉瞬时成功信号,SmartSnap让智能体自己边做边收集证据,无需预先撰写复杂校验脚本或全程监控轨迹,从而简化了训练准备工作 [19] - **便于拓展训练场景**:允许基于合成任务轻松拓展训练场景,并依据有限的证据链判断成功与否,使RL训练更加便捷 [20] - **推动AI发展**:标志着GUI智能体从“蛮力执行”走向“认知协同”,其主动寻找证据的能力提升了AI的可靠性,为未来大规模、低成本AI部署铺平道路 [21]
Hinton的亿万富豪博士生
量子位· 2026-01-10 11:07
文章核心观点 - 文章通过一张1986年CMU联结主义夏令营的历史照片,串联起AI领域先驱杰弗里·辛顿及其首位博士生彼得·布朗的职业生涯与人格特质,展现了辛顿在长期科研困境中坚守理想、安贫乐道的“贵族风范”,以及其学术思想如何深远地影响了从AI到量化金融等多个领域 [1][4][71] 1986年CMU夏令营合影的历史意义 - 该合影被誉为AI界的“索尔维会议”,照片中人物在几十年后统治了硅谷和华尔街,其中包括深度学习发明人、图灵奖得主杰弗里·辛顿,以及卷积神经网络发明人、图灵奖得主扬·勒昆 [2][4] - 照片中还有当时的研究生彼得·布朗,他后来成为全球顶尖量化对冲基金文艺复兴科技公司的首席执行官 [5] 彼得·布朗的职业生涯轨迹 - 彼得·布朗是杰弗里·辛顿指导的第一位博士研究生,于1987年毕业,博士论文题为《自动语音识别中的声学建模问题》,其研究奠定了基于统计模型的现代语音识别基础 [11][12][21][23] - 博士毕业后,彼得·布朗加入IBM,从事语音识别和机器翻译研究,其团队坚持纯数据驱动的统计方法,在当时备受传统学派冷遇 [23][24][25] - 在IBM期间,彼得·布朗是“深蓝”计算机项目的关键幕后推手,他通过一次偶然的交谈说服公司副总裁投资约100万美元建造该机器,最终“深蓝”在1997年击败国际象棋世界冠军,为IBM带来了约200亿美元的市值增长 [28][29][30] - 因家庭新生儿带来的经济压力,彼得·布朗接受了詹姆斯·西蒙斯给出的双倍薪酬邀请,从IBM跳槽至当时规模尚小的文艺复兴科技公司,其转型决定完全出于财务原因 [31][32][33] 彼得·布朗在文艺复兴科技的成就 - 彼得·布朗与罗伯特·默瑟一同加入文艺复兴科技,引入现代计算机科学方法重写了公司的股票交易系统,并从2002年起逐步接管公司核心业务 [36][37] - 他于2009年成为公司联席CEO,并于2018年成为公司唯一的首席执行官 [37] - 在其领导下,文艺复兴科技的旗舰产品大奖章基金在1988年至2019年间创造了年化超过66%的净回报率,公司被誉为华尔街“最赚钱的机器” [38] - 公司的成功依赖于由数学家和物理学家驱动的系统化量化交易,彼得·布朗倾向于招聘无金融背景的科学家,并自称每周工作80小时,截至2023年已在办公室睡了近2000晚 [39][40][41][42] - 因其卓越业绩,彼得·布朗早在2012年就从公司约33%的净收益中获得约1.25亿美元收入,跻身亿万富翁行列 [43] 杰弗里·辛顿的人格与坚守 - 在AI复兴前的三十年里,辛顿面临科研经费短缺和个人经济拮据的困境,他于2013年以64岁高龄加入谷歌,主要动机是为有学习障碍的儿子的未来储备资金 [8][47][48][50] - 尽管其首位博士生彼得·布朗已成为亿万富翁和对冲基金CEO,但辛顿始终未曾动用这层关系为自己谋取经济利益,展现了其安贫乐道、遗世独立的品格 [9][10][53][71] - 辛顿出身于科学世家,家族成员包括布尔代数发明者、核物理学家寒春等,其“贵族”背景与其长期坚守理想、不随波逐流的气质相契合 [55][59][63] - 在职业生涯中,辛顿在神经网络不被看好的时代坚守数十年,又在AI资本狂欢时离开谷歌,独立发声警示AI风险,其观点和行动往往“不合时宜”却经得起时间检验 [64][65][66][67][69][72][73]