参照人类大脑，学会忘记会让AI大模型变得更好？

计算机科学家团队近期开发出一种更敏捷更具弹性的机器学习模型，它们可以周期性忘记已知信息，而现有大语言模型不具备忘却能力。

实测表明，在很多情况下，“忘却法”的训练效率很高，忘却型模型表现也会更好。韩国基础科学研究院（Institute for Basic Science）的AI工程师Jea Kwon说，新研究意味着AI领域取得明显进步。

“忘却法”训练效率很高

今天的AI语言引擎大多都是人工神经网络驱动的。网络中的每一个“神经元”都是一个数学函数，它会从其它神经元接收信号，它会运算，然后通过多层神经元发送信号。

最开始时信息流或多或少都是随机的，当网络不断与训练数据匹配，神经元之间流动的信息会不断优化。例如，如果研究人员想训练一个双语翻译模型，它首先要收集海量双语文本，用文本训练模型，它会调整神经元之间的连接，将一种语言中的文本与另一种语言中的等效单词联系起来。

上述训练会耗费大量计算力。如果模型运行时不够出色，如果后来用户的需求变了，模型会很难匹配。

新模型研究人员Mikel Artetxe说：“假设你有一个模型，里面包含100种语言，有1种语言没有被覆盖。如果你想将这种语言添加进去，那就要重新训练。”

几年前，Artetxe和同事用1种语言训练神经网络，他们抹去神经网络所知的单词组成信息，也就是所谓的“Tokens”。Tokens存储在神经网络的第一层，它也叫“嵌入层”。对于其它层，不去理睬。抹去第1语言的Tokens之后，用第2种语言训练，第2种语言新的Tokens可以填充到嵌入层。

虽然模型包含大量不匹配信息，但仍然可以用第2种语言重新训练，也就是说模型可以学习、处理第2种语言。研究人员认为，虽然嵌入层存储了第2种语言的语汇特殊信息，但神经网络更底层存储了抽象信息，它涉及到人类语言的幕后概念，正是这些概念帮助模型学习第二种语言。

研究报告作者Yihong Chen认为：“我们生活在相同的世界，用不同语言的不同词汇来赋予相同事物以概念。所以在模型之中会有相同等级的推理，比如一个苹果，它是甜的，美味的，它不只是一个词汇。”

将新语言添加到已训练模型中，采用“忘却法”效率很高，尽管如此，还是需要重新训练，仍然需要海量数据和强大的处理能力。有没有更好的办法？当然有，不需要训练，直接抹去嵌入层，然后再训练，也就是在初步训练时周期性重置嵌入层。

Artetxe称：“如此一来，整个模型就能适应重置。如果你想扩展模型，让它适应另一种语言，过程会变得更容易。”

忘却型模型表现更好

研究人员用一种比较通用的大语言模型Roberta做实验，采用周期性忘却技术训练，将它与那些用标准、非忘却方法训练的模型作比较。结果发现，在处理第1种语言时，忘却型模型得分85.1分，传统标准模型得分86.1分。再用第2种语言训练，只用约500万Tokens（第一种语言用了700亿）训练，忘却型模型的精准度得分降至62.7分，标准模型降到53.3分。

再训练时如果研究人员施加计算限制，忘却型模型的表现会更好。例如，当研究人员将训练长度从125000步短到5000步，忘却型模型的平均得分约为57.8分，标准模型降到37.2分，几乎和猜测差不多。

因此研究人员得出结论：在学习语言时，忘却型模型表现更好一些。

魁北克深度学习研究中心Mila的研究人员Evgenii Nikishin认为：“因为模型在训练时不断忘却，然后再重新学习，所以后面再教网络一些新东西时会变得更容易些。”种种迹象显示，模型理解语言时会从更深层次着眼，不只是了解单个词汇的意思。

忘却法与人类大脑的运行模式有些相似。旧金山大学神经科学家Benjamin Levy认为：“存储大量详细信息时人类记忆是相当不精准的。但人类大脑可以记住经验要点，记住抽象信息，而且擅长推断。让AI像人类一样处理信息，比如让它具备忘却能力，AI也许会更有弹性。“

Yihong Chen认为，未来也许会出现制造语言模型的工厂，这样的工厂需要忘却型技术，它是一个基本模型，可以快速适应新领域。