谷歌发布“嵌套学习”范式:让AI像人脑一样温故知新
创始人
2025-11-10 15:15:51
0

11 月 10 日消息,谷歌研究院于 11 月 7 日发布博文,为攻克 AI 模型在持续学习新知识时遇到“灾难性遗忘”难题,介绍了嵌套学习(Nested Learning)全新机器学习范式。

当前的大语言模型尽管强大,但其知识仍局限于预训练数据或有限的上下文窗口,无法像人脑一样通过“神经可塑性”(Neuroplasticity,指大脑能够根据经验、学习和环境变化来调整自身结构和功能的能力)持续学习新技能而不遗忘旧知识。

若直接用新数据更新模型,往往会导致“灾难性遗忘”(Catastrophic Forgetting),即学会新任务后,旧任务的性能会严重下降。为解决这一根本性挑战,谷歌研究院的研究人员提出了全新的解决思路。

在发表于 NeurIPS 2025 的论文中,谷歌推出了“嵌套学习”(Nested Learning)范式。该范式从根本上统一了模型架构与优化算法这两个传统上被分开处理的概念。

该范式认为,一个复杂的机器学习模型,其本质是一系列相互嵌套或并行的优化问题,每个问题都有自己独立的“上下文流”和更新速率。这一视角揭示了一个全新的设计维度,允许研究人员构建计算深度更深的 AI 组件,从而有效缓解灾难性遗忘问题。

基于嵌套学习范式,研究团队提出了两项具体的技术改进:

第一是“深度优化器”(Deep optimizers),通过将优化器本身也视为一个学习模块,并改进其底层目标函数,使其对不完美的数据更具鲁棒性(一个系统或过程在面对不确定性、变化、错误输入或异常情况时,仍能保持其功能和稳定性能的能力)。

第二是“连续体内存系统”(Continuum Memory Systems,CMS),它将模型的内存视为一个由多个不同更新频率的模块组成的光谱,从短期记忆平滑过渡到长期记忆,创建了一个更丰富、更高效的持续学习内存体系。

为了验证上述理论,研究团队设计并实现了一款名为“Hope”的概念验证模型。Hope 是一种基于 Titans 架构的自修改循环网络,它深度集成了连续体内存系统(CMS),能够通过自我参照的过程优化自身内存,从而实现近乎无限层级的上下文学习。

在一系列公开的语言建模和常识推理任务中,Hope 架构的困惑度更低,准确性显著高于现代循环模型和标准 Transformer。

尤其在考验模型长文本记忆能力的“大海捞针”(Needle-In-Haystack,NIAH)测试中,Hope 展现出卓越的内存管理能力,证明连续体内存系统是处理超长信息序列的有效方案,为实现真正能“温故知新”的 AI 铺平了道路。

NIAH 是一种用于评测大型语言模型长文本理解和信息检索能力的基准测试,要求模型从非常长的文本(草堆,Haystack)中精准地找出并回答一个特定的信息点(针,Needle)。

【来源:IT之家】

相关内容

热门资讯

“跨年好去处”搜索热度飙升!年... 近年来,民众迎接新年的形式愈发多元,不论是游览名胜,还是畅玩冰雪,都颇具仪式感。今年元旦共有3天假期...
每周股票复盘:邦彦技术(688... 截至2025年12月26日收盘,邦彦技术(688132)报收于18.74元,较上周的18.45元上涨...
2025年热贡文化唐蕃古道行兰... 本文转自:人民网-青海频道黄河之约·金城相会2025年热贡文化唐蕃古道行兰州站农文旅商推介活动启幕黄...
《徐霞客游记》中两次提及的报恩... 从大理市区到鸡足山虽然有点远,但这座曾被徐霞客在他的游记中两次提及的报恩寺的吸引力也是显而易见的。不...
崇明的海风吹进浦江东岸,足不出... 这个周末,来自崇明的海风,吹进了浦江东岸,邀请都市人足不出“沪”,体验另一种“向往的生活”。12月2...
崇明文旅推介嘉年华亮相浦东前滩... 今天(12月27日),“域见上海 申爱崇明”崇明文旅推介嘉年华在浦东新区前滩公园巷举行。现场,近70...
抖音2025文旅报告揭晓!万岁... 12月24日抖音生活服务发布《2025文旅数据报告》郑州入选全国十大热门旅游城市洛阳、开封跻身全国十...
2025「Ai+消费品」日常生... “AI+消费品”是将生成式AI、计算机视觉等技术作为核心功能的产品,主要面向普通消费者。其发展历经“...
城市徒步新玩法!徐家汇“博物行... 徐家汇商圈 “如今看到的徐家汇空中连廊于2024年竣工,简洁雅致的造型和通透的结构,将连廊巧妙融入商...
人类基准测试大翻车:样本不足、... 我们经常在一些对比 AI 性能的测试中,看到宣称基础模型在自然语言理解、推理或编程任务等性能超人类的...