为何说小语言模型是AI界的下一大热门？ 译文

在AI领域，科技巨头们一直在竞相构建越来越庞大的语言模型，如今出现了一个令人惊讶的新趋势：小就是大。随着大语言模型（LLM）方面的进展出现了停滞的迹象，研究人员和开发人员日益开始将注意力转向小语言模型（SLM）。这种紧凑、高效、适应性强的AI模型正在挑战“越大越好”这个观念，有望改变我们对待AI开发的方式。

为何说小语言模型是AI界的下一大热门？译文

LLM是否开始停滞？

Vellum和HuggingFace最近发布的性能比较结果表明，LLM之间的性能差距在迅速缩小。这个趋势在多项选择题、推理和数学问题等特定任务中体现得尤为明显；在这些任务中，各大模型之间的性能差异很小。比如在多项选择题中，Claude 3 Opus、GPT-4和Gemini Ultra的准确率都在83%以上，而在推理任务中，Claude 3 Opus、GPT-4和Gemini 1.5 Pro的准确率超过92%。

有意思的是，连较小的模型（比如Mixtral 8x7B和Llama 2 - 70B）在某些方面也显示出了让人惊喜的结果，比如推理和多项选择题；在这些方面，小模型的表现胜过一些大模型。这表明模型的大小可能不是决定性能的唯一因素，而架构、训练数据和微调技术等其他方面可能发挥重要作用。

Uber AI前负责人、《重启人工智能》（Rebooting AI）一书的作者Gary Marcus表示：“如果看一下最近发表的十几篇文章，它们大体上都与GPT-4处于同一个水准。”《重启人工智能》讲述了如何构建值得信赖的AI。Marcus周四接受了IT外媒《VentureBeat》的采访。

“其中一些比GPT-4好一点，但没有大的飞跃。我想每个人都会说GPT-4比GPT-3.5是一大进步，一年多的时间里并没有任何大的飞跃。”

随着性能差距继续缩小，更多的模型显示出颇具竞争力的结果，这引发了LLM是否真的开始停滞的问题。如果这种趋势持续下去，可能会对语言模型的未来开发和部署产生重大影响，人们关注的重心可能会由一味增加模型大小转向探索更有效、更专门化的架构上。

LLM方法的缺点

虽然不可否认LLM功能强大，但也有明显的缺点。首先，训练LLM需要大量的数据，需要数十亿甚至数万亿个参数。这使得训练过程极其耗费资源，训练和运行LLM所需的算力和能耗也是惊人的。这导致了成本高企，使得小组织或个人很难参与核心LLM开发。在去年麻省理工学院组织的一次活动上，OpenAI首席执行官Sam Altman表示，训练GPT-4的成本至少为1亿美元。

处理LLM所需的工具和技术的复杂性也将一条陡峭的学习曲线摆在开发人员的面前，进一步限制了可访问性。从模型训练到构建和部署，开发人员面临的周期很长，这减慢了开发和试验的速度。剑桥大学最近的一篇论文显示，公司部署单单一个机器学习模型就可能要花90天或更长的时间。

LLM的另一个重要问题是它们往往产生幻觉——生成看似合理但实际上并不真实的输出。这源于LLM被训练成基于训练数据中的模式来预测下一个最有可能的单词的方式，而不是真正了解信息。因此，LLM可以自信地做出虚假陈述，编造事实或以荒谬的方式组合不相关的概念。检测和减轻这种幻觉现象是开发可靠的语言模型面临的老大难问题。

Marcus警告：“如果你用LLM来解决重大问题，你不想侮辱客户、得到错误的医疗信息，或者用它来驾驶汽车。这仍然是个问题。”

LLM的规模和黑盒性质也使它们难以解释和调试，解释和调试对于对模型的输出建立信任至关重要。训练数据和算法中的偏差可能导致不公平、不准确甚至有害的输出。正如我们在谷歌Gemini中看到，使LLM“安全”而可靠的技术也会降低其有效性。此外，LLM的集中性质引发了对权力和控制权集中在少数大型科技公司手中的担忧。

小语言模型（SLM）登场

这时候小语言模型登场了。SLM是LLM的精简版，参数更少，设计更简单。它们所需的数据和训练时间更短，只需几分钟或几个小时，而LLM需要几天。这使得SLM部署在本地或小型设备上来得更高效更简单。

SLM的主要优点之一是它们适合特定的应用环境。由于它们关注的范围更狭小，需要更少的数据，所以比大型通用模型更容易针对特定领域或任务进行微调。这种定制使公司能够创建对其特定需求而言非常有效的SLM，比如情绪分析、命名实体识别或特定领域的问题回答。与使用通用模型相比，SLM的专门化特性可以提升其在这些目标应用环境的性能和效率。

SLM的另一个好处是有望增强隐私和安全。使用更小的代码库和更简单的架构，SLM更容易审计，并且不太可能出现意外漏洞。这使得它们对于处理敏感数据的应用环境颇有吸引力，比如在医疗保健或金融领域，数据泄露可能酿成严重后果。此外，SLM的计算需求减少，使得它们更适合在本地设备或本地服务器上运行，而不是依赖云基础设施。这种本地处理可以进一步提高数据安全性，并降低数据在传输过程中暴露的风险。

与LLM相比，SLM在特定领域内更不容易出现未被发现的幻觉。SLM通常使用预期领域或应用环境特有的更狭窄、更有针对性的数据集进行训练，这有助于模型学习与其任务最相关的模式、词汇表和信息。这就降低了生成不相关、意外或不一致输出的可能性。由于使用更少的参数和更精简的架构，SLM不太容易捕获和放大训练数据中的噪音或错误。

AI初创公司HuggingFace的首席执行官Clem Delangue表示，高达99%的用例可以使用SLM来解决，并预测2024年将是SLM元年。HuggingFace的平台使开发人员能够构建、训练和部署机器学习模型，该公司今年早些时候宣布与谷歌建立战略合作伙伴关系。两家公司随后将HuggingFace整合到谷歌的Vertex AI中，允许开发人员通过谷歌Vertex Model Garden快速部署数千个模型。

谷歌Gemma受到追捧

在最初将LLM方面的优势拱手让给OpenAI之后，谷歌正积极抓住SLM机会。早在2月份，谷歌推出了Gemma，这是一系列新的小语言模型，旨在提高效率和用户友好性。与其他SLM一样，Gemma模型可以在各种普通设备上运行，如智能手机、平板电脑或笔记本电脑，不需要特殊的硬件或全面的优化。

自Gemma发布以来，经过训练的模型上个月在HuggingFace上的下载量已经超过40万次，而且已涌现出了几个令人兴奋的项目。比如说，Cerule是一个功能强大的图像和语言模型，它结合了Gemma 2B和谷歌的SigLIP，使用大量的图像和文本数据集进行了训练。Cerule利用高效的数据选择技术，可以在不需要大量数据或计算的情况下实现高性能。这意味着Cerule可能非常适合新兴的边缘计算用例。

另一个例子是CodeGemma，它是Gemma的专门版，专注于编程和数学推理。CodeGemma为各种编程相关的活动提供了三种不同的模型，使高级编程工具对开发人员来说更容易访问、更高效。

小语言模型的巨大潜力

随着AI社区继续探索小语言模型的潜力，更快的开发周期、更高的效率以及能够根据特定需求定制模型等优点变得越来越明显。SLM有望通过带来具有成本效益、具有针对性的解决方案，普及AI访问，并推动行业创新。在边缘部署SLM为金融、娱乐、汽车系统、教育、电子商务和医疗保健等行业领域的实时、个性化和安全的应用系统带来了新的可能性。

通过在本地处理数据并减少对云基础设施的依赖，结合SLM的边缘计算可以缩短响应时间、增强数据隐私和改进用户体验。这种去中心化的AI方法有望改变企业和消费者与技术进行互动的方式，在现实世界中创造更个性化更直观的体验。由于LLM面临与计算资源相关的挑战，可能遇到性能瓶颈，因此，LLM的兴起有望使AI生态系统继续以惊人的步伐发展。