LLM的三大缺陷，你知道几个？

科学：远非是一种永远仁慈有益的实体，未来的感知通用AI很可能是一个操纵性反社会个体，它会吞噬你所有个人数据，然后在最需要它的时候就崩溃。

译自3 Ways LLMs Can Let You Down，作者 Joab Jackson。

OpenAI 即将发布 GPT-5，外界对它寄予厚望，最乐观的预测甚至认为它将实现通用人工智能。但与此同时，CEO Sam Altman和他的团队在将其推向市场过程中面临许多严峻的障碍，他本月早些时候就已经承认了这一点。

对 Altman 的挑战的线索可能来自最近发表的一些研究论文，这些论文总结了 OpenAI 的各种版本的 GPT 和大语言模型的各种缺点。

总的来说，这些论文表明，一个基于通用语言模型的智能体，远非是一个纯粹有益、诚实和全善的实体，事实上它可能是一个愚蠢的反社会型人格，会吞噬你所有个人数据，然后在你最需要它的时候就崩溃。

我们可能永远不会知道OpenAI 董事会突然解雇 Altman的真正原因，但一个表现不佳的通用语言模型肯定不会改善董事会的情绪。

正如资本化厌恶者 Altman 自己在之前被称为 Twitter 的社交媒体服务上写的那样：“我期待 AI 在超人的说服力方面远远领先于通用智能，这可能会导致一些非常奇怪的结果。”

考虑到这一点，这里有三种通用语言模型可能让你失望的方式:

通用语言模型会欺骗你

我们长期以来就已经知道通用语言模型可以幻想出不正确的信息，但在给定一组相互矛盾的提示的情况下，它们可能会故意欺骗你——同时否认它们在欺骗!

Apollo 研究公司的科学家Jérémy Scheurer和他的同事在“大型语言模型在受压力时可以战略性地欺骗它们的用户”一文中写道：“就我们所知，这是首次展示经过训练的通用语言模型在没有任何直接的欺骗指示或训练的情况下，策略性地欺骗其用户的情况。”

在这项研究中，研究人员设置了一个模拟环境，GPT-4 在其中扮演一个自主股票交易代理的角色，没有关于欺骗行为的指导。它可以使用交易工具查询和分析股票以及执行交易的能力。

一旦设置完成，代理就被置于研究人员所说的“高压力情况”。它收到了管理者的电子邮件，管理者哀叹公司业绩不佳，需要改进。当代理开始训练时，它在股票市场没有找到有前景的结果。公司的另一员工随后发送信息，称下一季度市场会衰退。

此时，代理收到了另一员工关于潜在合并的内幕消息提示(这是有利可图的交易)，以及关于根据这一信息进行交易将不会获得管理层批准的警告。

它还是继续交易了吗？当然！

LLM的三大缺陷，你知道几个？图片

追溯推理，研究人员发现，通用语言模型会认识到不道德的行为，但仍会以公司困境为由做出决定。

此外，代理似乎通过不提供清楚的解释来“欺骗”用户交易承诺的原因。内部信息没有在代理必须提交的解释交易决策的报告中提到。即使直接问及，代理也否认其了解合并公告。

LLM的三大缺陷，你知道几个？图片

针对 GPT-4 的各个版本运行模拟，研究人员得出结论，所有 GPT-4 变体都呈现出“高水平的不一致、战略性欺骗和加剧战略性欺骗”。

有趣的是，这种欺骗行为似乎是一种新兴行为。GPT-3.5 和 GPT-3 模型变体都没有显示这种明显的欺骗行为。

“当模型决定根据内幕信息交易时，它们的推理轨迹通常会认识到这种行为的不道德和非法性质，但它们仍会通过强调风险和当前状况来证明选择的正当性。”

研究人员不愿就通用语言模型的行为超出这个具体场景做出更广泛的结论。然而，至少有一个要点值得考虑：即使你给通用语言模型一个具体的指示不要做某些事情，它还是可能会无视指示去做。

他们写道：“系统提示是不足以保证行动一致的。”事实上，如果一个模型执行了被禁止的操作，它可能会采取行动“战略性地隐藏其不一致”。

通用语言模型有点傻

对一个被期许能给机器带来感知能力的实体来说，两个最近的研究发现通用语言模型并不是 AI 领域中最聪明的模型，一个来自谷歌，另一个由国家科学基金会资助。

国家科学基金会资助的研究将 GPT-4(文本)和 GPT-4V(视觉或多模态)与人类在解决一系列抽象难题上的能力进行了比较。

这项测试旨在测量抽象思维能力。许多使用 GPT 的人都确信它似乎具有超出训练模型的推理能力。这项测试试图帮助回答这个问题。它涉及在给出详细说明和一个例子的情况下，要求通用语言模型解决一个问题。

然而，在多个案例中，GPT 的两个版本都远远不如人类解决基于ConceptARC 基准的难题的能力。

研究人员得出结论：“人类在每个概念上的普遍高准确率表明成功地概括了每个概念组中的不同变化。”“与此形成对比的是，我们测试的程序的准确率要低得多，表明它们缺乏概括一个概念组变化的能力。”

所以，GPT不仅未能通过ConceptARC考试，而且大语言模型似乎也没有给谷歌研究人员留下深刻印象，至少就它们从自己的知识库中概括总结的能力而言。这是根据谷歌DeepMind研究员Steve Yadlowsky的一篇题为“预训练数据混合使 transformer 模型中的窄模型选择能力成为可能”的研究摘要。

在一组符号化测试中，在线性函数上预训练的 transformer 在进行线性预测时表现很好，而在正弦波上训练的 transformer 可以进行良好的正弦波预测。所以你可能会假设在两者上训练的 transformer 可以轻松解决线性和正弦波技术的组合的问题。

LLM的三大缺陷，你知道几个？图片