分层推理模型(HRM)
搜索文档
“惊人转变”,美媒:清华AI专利数超过哈佛、麻省理工等美国四校总和
新浪财经· 2025-11-19 17:23
全球人工智能创新格局演变 - 中国人工智能技术正以爆发式速度迭代,与美国的差距快速拉近 [1] - 2005年至2024年末,清华大学累计获得4986项人工智能与机器学习相关专利,仅2024年一年就新增900余项 [1] - 在全球人工智能与机器学习领域的有效专利族中,中国占比已过半 [1] - 2019年至2022年间,全球顶尖人工智能研究者(前2%)中,中国占比从10%升至26%,美国占比则从35%降至28% [2] - 知识产权分析人士指出,这是不到十年内全球创新领域的惊人转变,反映了中国打造人工智能强国的坚定决心与协同努力 [2] 清华大学在人工智能领域的领先地位 - 清华大学在人工智能领域发表的学术论文中,入选“全球引用量最高100篇论文”的数量位居全球高校之首 [1] - 清华大学获批的人工智能相关专利数量超过麻省理工学院、斯坦福大学、普林斯顿大学与哈佛大学这四所美国顶尖高校的总和 [1] - 在《美国新闻与世界报道》的全球学科排名中,清华大学的工程学、人工智能、计算机科学、化学工程等多个学科始终名列前茅 [4] - 清华大学正将人工智能技术全面融入全校各学科,人工智能与大语言模型已深度嵌入各学科日常科研工作 [7] - 清华大学于2024年9月推出全新人工智能计算平台,为全体学生提供补贴使用权限,方便开展新型模型研发试验 [7] 中国人工智能产业与模型发展 - 2024年,美国科研机构研发的知名人工智能模型达40个,而中国为15个,但在部分性能测评指标上,中国机构正逐步缩小与美国的差距 [1] - 2024年对中国人工智能领域而言是突破性的一年,人工智能初创企业“深度求索”(DeepSeek)凭借创新性大语言模型惊艳科技界 [4] - 中国国内头部人工智能初创企业中,至少有四家由清华毕业生创办 [5] - 清华大学脑与智能实验室专注于多领域交叉融合,人工智能初创公司Sapient正是这种跨学科教育模式的成果 [5] - 该实验室开发的分层推理模型(HRM)在推理能力测评与复杂数独解题方面,表现均优于美国OpenAI和Anthropic公司开发的更大规模模型 [5] 人才流动与科研环境 - 越来越多清华毕业生更愿意留在国内发展,能真切感受到清华大学正处于发展最蓬勃的时期 [7] - 曾任职哈佛大学的教授刘军,于2024年回国组建清华大学统计学与数据科学系,并积极从美国顶尖高校招揽人才 [7] - 政府、产业界和学术界对人工智能与机器学习领域热情高涨,资本注入加上中国政府对科研领域的大力扶持,是该领域吸引全球人才的关键原因 [7] - 中方通过税收减免、资金补贴及配套扶持政策为人工智能等关键技术研发提供坚实保障 [4]
“惊人转变!清华超过美国顶尖四校总和”
观察者网· 2025-11-19 15:51
文章核心观点 - 中国人工智能技术发展迅猛,与美国的差距正在快速缩小,清华大学在学术论文和专利数量上表现突出,成为这一趋势的代表[1] - 尽管美国在专利影响力和顶尖模型数量上仍保持领先,但中国在顶尖研究者占比、模型性能及创新路径上正逐步追赶甚至局部超越[1][2] - 中国通过政策扶持、资本注入和产学研融合,正形成强大的人工智能创新生态,吸引全球人才并推动科研成果向产业转化[4][6][7] 学术研究与专利产出 - 2005年至2024年末,清华大学累计获得4986项人工智能与机器学习相关专利,仅2024年就新增900余项[1] - 在全球人工智能领域的有效专利族中,中国占比已超过50%[1] - 清华大学在人工智能领域发表的学术论文中,入选“全球引用量最高100篇论文”的数量位居全球高校之首[1] - 其获批的相关专利数量超过麻省理工学院、斯坦福大学、普林斯顿大学与哈佛大学四所美国顶尖高校的总和[1] 中美对比与竞争态势 - 在专利影响力排名中,哈佛大学与麻省理工学院仍领先于清华大学[1] - 2024年,美国科研机构研发的知名人工智能模型达40个,而中国为15个[1] - 2019年至2022年间,全球顶尖人工智能研究者(前2%)中,中国占比从10%升至26%,美国占比则从35%降至28%[2] - 在部分性能测评指标上,中国机构正逐步缩小与美国的差距[1] 创新案例与技术进步 - 清华大学脑与智能实验室孵化的初创公司Sapient,其开发的分层推理模型在推理能力测评与复杂数独解题方面,表现优于美国OpenAI和Anthropic公司开发的更大规模模型[5] - 该模型模仿人类大脑运行方式,为通用人工智能研发提供了全新路径[5] - 人工智能初创企业“深度求索”(DeepSeek)凭借创新性大语言模型惊艳科技界[4] 产学研生态与人才流动 - 中国国内头部人工智能初创企业中,至少有四家由清华毕业生创办[5] - 清华大学正将人工智能技术全面融入全校各学科,人工智能与大语言模型已深度嵌入各学科日常科研工作[6] - 清华大学推出全新人工智能计算平台,为全体学生提供补贴使用权限,方便开展新型模型研发试验[6] - 曾任职哈佛大学的教授刘军回国组建清华大学统计学与数据科学系,并积极从美国顶尖高校招揽人才[6][7] - 政府、产业界和学术界对人工智能与机器学习领域热情高涨,资本注入加上中国政府对科研领域的大力扶持,是该领域吸引全球人才的关键原因[7] 政策支持与发展环境 - 中方通过税收减免、资金补贴及配套扶持政策为人工智能等关键技术研发提供坚实保障[4] - 学界科研成果正迎来转化为实际价值与荣誉的绝佳契机[4] - 越来越多清华毕业生更愿意留在国内发展,能真切感受到清华大学正处于发展最蓬勃的时期[6]
700万参数击败DeepSeek R1等,三星一人独作爆火,用递归颠覆大模型推理
机器之心· 2025-10-09 12:43
模型架构创新 - 微型递归模型(TRM)采用递归推理架构,通过“起草-思考-修订”的循环过程(最多16次)来提升答案质量,其核心思想是“少即是多”[4][6][7][8][9] - TRM重新定义了完整的递归过程,在训练中先运行T-1次无梯度递归来改进中间表示,再进行一次带反向传播的递归,从而完全消除了对不动点假设和隐函数定理一步梯度近似的依赖[11] - 该模型采用单网络设计,而非HRM的双网络架构,减少了参数量;同时发现减少网络层数(最优为2层)并增加递归次数能提升泛化性能,避免过拟合[12][13][16][17] 技术参数与效率 - TRM模型规模极小,仅包含700万个参数,比HRM的2700万参数小4倍,比Qwen3 0.6B模型小约22倍,但性能卓越[1][4] - 在架构选择上,TRM探索了无注意力设计,用作用于序列维度的多层感知机(MLP)替代自注意力机制,在短上下文任务中更高效[18][19][20] - 模型训练仅使用1000个训练样本,便在复杂推理任务上取得卓越性能,显示出极高的数据效率[1] 性能表现对比 - 在Sudoku-Extreme测试中,不带自注意力的TRM-MLP模型准确率最高达87.4%,显著高于HRM的55.0%和直接预测法的0.0%[23][25] - 在Maze-Hard任务上,带自注意力的TRM-Att模型准确率达85.3%,远超HRM的74.5%;在ARC-AGI-1和ARC-AGI-2上,TRM-Att准确率分别为44.6%和7.8%,也优于HRM的40.3%和5.0%[25][26][28][29] - 与参数规模大数千倍的尖端大模型(如Deepseek R1的671B参数、Grok-4-thinking的1.7T参数)相比,仅700万参数的TRM在部分推理基准测试中甚至能够超越这些模型[4][25][26]
只用2700万参数,这个推理模型超越了DeepSeek和Claude
机器之心· 2025-06-30 18:23
大模型架构变革 - 当前大语言模型(LLM)采用思维链(CoT)技术存在任务分解复杂、数据需求大、高延迟等问题 [2] - 分层推理模型(HRM)通过循环架构实现高计算深度,仅需2700万参数和1000个训练样本即可在复杂推理任务中表现卓越 [3][4] - HRM无需预训练或CoT数据,在数独、迷宫路径查找等任务中达到近乎完美性能,并在ARC-AGI基准上超越更大模型 [5][7] HRM设计原理 - 核心灵感源于大脑分层处理和多时间尺度机制:高级模块负责抽象规划(慢速),低级模块处理细节计算(快速) [12][13] - 采用四个可学习组件(输入网络、高低级循环模块、输出网络)实现层级收敛性,H模块稳定收敛,L模块周期性重置 [14][15][17] - 通过一步梯度近似法(O(1)内存)和深度监督机制优化训练效率,避免传统BPTT算法的深层信用分配难题 [19][20][23] 性能与实验验证 - 在ARC-AGI、数独、迷宫任务中,HRM表现出类似深度优先搜索和渐进优化的底层推理算法 [31] - 训练后高层模块与低层模块自然涌现维度层级分化,而非架构固有特性 [33][34] - 具备图灵完备性,可模拟任何图灵机,通过自适应计算时间(ACT)动态调整资源分配 [35][36][27] 技术对比优势 - 相比CoT模型,HRM在符号树搜索任务(如Sudoku-Extreme)中准确率接近100%,而标准Transformer增加深度无效 [10] - 强化学习(RL)需依赖CoT能力且数据效率低,HRM通过密集梯度反馈实现连续空间运算,生物合理性更高 [37][39] - 推理阶段仅需调整计算限制参数Mmax即可扩展性能,无需重新训练 [28]