27M小模型超越 o3-mini-high 和 DeepSeek-R1!推理还不靠思维链。
开发者是那位拒绝了马斯克、还要挑战 Transformer 的 00 后清华校友,Sapient Intelligence 的创始人王冠。
这个 27M 小模型就是 Sapient 最新提出的开源可复现的分层推理模型 Hierarchical Reasoning Model(下面简称 HRM),模仿大脑的分层处理与多时间尺度运作机制,克服了标准 Transfomer 的计算局限。
2700 万参数,就实现了对现有大模型的精准超车。
不用预训练补课,还不靠思维链打草稿,仅凭 1000 个训练样本,就把极端数独、30x30 迷宫玩得明明白白。
甚至连衡量通用智能的 ARC-AGI 测试都能碾压一众参数规模更大、上下文更长的 Claude 3.7 等"大前辈"。
有网友感叹,这就像四两拨千斤 AI 版……
所以,HRM 这个小模型是如何做到的?
核心是仿脑的双层循环模块设计
HRM 之所以能有如此出色的表现,源于其五项核心技术的巧妙设计。
首先是分层循环模块与时间尺度分离。
HRM 受大脑皮层区域分层处理和时间分离机制启发,设计了两个相互配合的循环模块:一个高层模块负责慢节奏的抽象规划,一个低层模块处理快节奏的细节计算,不用明确监督中间过程,一次就能完成推理。
两者在不同时间尺度上协同工作。低阶模块在每个高阶周期内完成多次计算并达到临时稳定状态后,高阶模块才会更新决策,随后低阶模块重置并开启新一轮计算。
这种设计既保证了全局方向的正确性,又提升了局部执行的效率。
比如,在需要大量树搜索和回溯的 Sudoku-Extreme Full 任务上,增加 Transformer 的宽度不能提升性能,增加深度才是关键,而标准架构会出现性能饱和,无法从深度增加中获益。
HRM 则克服了这一限制,能有效利用计算深度实现近乎完美的准确率。
其次是分层收敛机制。
普通的循环神经网络常出现过早收敛的问题——计算几步就陷入稳定状态,后续再复杂的任务也无法推进。
而 HRM 中,低阶模块在每轮计算中会收敛到基于当前高阶状态的局部结果,但高阶模块更新后,会给低阶模块设定新的目标,使其进入新的收敛周期。
这就像完成项目时,先攻克一个子任务,再根据整体进度调整目标,确保持续推进不偷懒。
第三项是近似梯度技术。
传统循环模型训练时,需要存储所有中间状态并反向追溯,类似复盘时要回看每一步操作,既耗内存又低效。
HRM 则采用一步梯度近似,只需根据最终状态反推优化方向,如同根据考试结果直接定位薄弱知识点,内存需求恒定且计算高效,更符合生物大脑的学习规律。
第四是深度监督机制。
它受大脑中神经振荡调节学习节奏的启发,引入了阶段性测试。
模型在学习过程中被分成多个阶段,每个阶段结束后立即评估并调整参数,且前后阶段的计算互不干扰。
这种方式能及时纠正偏差,就像学生每学一单元就测试巩固,比期末一次性考试的学习效果更扎实。
自适应计算时间让 HRM 能像人一样灵活分配思考时间。
它通过类似评估收益的算法(Q 学习),动态决定是否继续计算,在保证准确率的同时避免算力浪费,推理时还能通过增加计算资源进一步提升表现。
比如,简单任务如简单迷宫快速给出答案,复杂任务如高难度数独则延长计算时间。
这些技术的融合,让 HRM 在多项测试中表现不凡。
下图通过可视化中间步骤,验证了 HRM 的分层推理机制能够有效拆解复杂任务,通过渐进式计算逼近正确结果,而非依赖黑箱式的一次性输出。
在衡量 AI 通用推理能力的 ARC-AGI 挑战中,HRM 仅用 2700 万参数和 1000 个训练样本,就达到40.3%的准确率,超过了参数规模更大的 o3-mini-high(34.5%)和 Claude 3.7 8K(21.2%)。
对于需要反复试错的 9x9 极端数独,现有思维链模型完全无法解决(准确率 0%),即便是结构相似的 Transformer 模型,用同样数据训练也毫无头绪。而 HRM 几乎能全部做对。
在 30x30 复杂迷宫的最优路径寻找任务中,HRM 表现稳定,而 1.75 亿参数的大型 Transformer 模型准确率不足 20%。
虽然,HRM 被指参数太小、训练范围有限,只针对特定领域表现好,无法泛化到领域外,并不通用。但有人认为小而精的模型或许在某些角度上更智能。
人工智能的飞跃在于创造性。
也有人认为 HRM 的前景更在于"仿脑",通过精心设计的高低两个模块避免过早收敛,对过拟合具有极强的抵抗力。
甚至有人相当乐观,认为这种新架构是神经网络一个巨大的进步。有可能是超越 Transformer 的时刻。
拒绝马斯克,挑战 Transfomer
论文的第一作者王冠是一位 00 后,8 岁开始学习编程,后保送至清华大学计算机系。
他是 GitHub 揽星 5.1k 开源项目 OpenChat 的独立开发者,独立完成了 OpenChat 全部版本的模型开发和训练框架搭建。
也正是因为 OpenChat 这个项目,他和马斯克产生了交集。
但他算得上是一个拒绝了马斯克的男人——此前,王冠多次拒绝了 xAI 等一线机构创始人的加入邀请。
原因是他认为自己要做的是颠覆 Transfomer。
2024 年,王冠和联合创始人 Austin 创办了Sapient Intelligence,并成功融资数千万美元。致力于打造"真正具有复杂推理和规划能力的全新大模型架构"。
论文地址:https://arxiv.org/abs/2506.21734
代码地址:https://github.com/sapientinc/HRM
参考链接:
[ 1 ] https://x.com/casper_hansen_/status/1951656675250684163
[ 2 ] https://x.com/deedydas/status/1951677875004100814
[ 3 ] https://x.com/omarsar0/status/1951751651729060081
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 希望了解 AI 产品最新趋势?
量子位智库「AI 100」2025 上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考� �
� � 点亮星标 � �
科技前沿进展每日见
股票配资平台大全,线上开户的证券公司,中国股市杠杆提示:文章来自网络,不代表本站观点。