LinkedIn在利用大型语言模型服务十亿用户中的收获

LinkedIn 在全球拥有超过10亿用户，不断挑战当今企业技术的极限。很少有公司能够像LinkedIn那样运营，或者拥有类似的大量数据资源。

对这个专注于商业和就业的社交媒体平台来说，将合格的候选人与潜在雇主连接起来，帮助填补职位空缺是其核心业务。同样重要的是确保平台上的帖子反馈与消费者的需求相关。在LinkedIn的规模下，这些匹配过程一直依赖于技术。

在2023年夏天，当GenAI的兴趣首次高涨时，LinkedIn开始考虑是否利用大型语言模型(LLMs)来匹配候选人与雇主，以及使信息流更加有用会更好。

因此，这家社交媒体巨头开启了一段GenAI的旅程，并现在正在报告其利用Microsoft的Azure OpenAI服务的经验成果。各行各业的CIOs都可以从LinkedIn在此过程中学到的一两点经验。

起伏跌宕

正如大多数CIO所经历的那样，采用新兴技术伴随着试验和挫折。LinkedIn的情况也不例外，据该公司的首席软件工程师及技术负责人Juan Bottaro所说，其走向LLM洞察的道路一点也不平坦。

Bottaro表示，最初的成果“感觉不够完善”，“连接的点还不够多。”

围绕GenAI的首波炒作并没有帮助。

“LLM是新事物，感觉它能解决所有问题，”Bottaro说。“我们开始时对LLM能做什么并没有一个非常清晰的概念。”

例如，早期版本的改进型职位匹配工作可以说是相当的，用一个不太恰当的词来说，粗鲁。或者至少过于直白。

“点击‘评估我是否适合这份工作’后得到‘你完全不适合’并不实用，”Bottaro说。“我们希望[回应]既事实准确，同时也要有同理心。有些会员可能正在考虑转行到他们目前并不十分适合的领域，需要帮助了解差距和下一步该怎么做。”

因此，LinkedIn初步学到的一个重要经验是调整LLM以满足观众的期望——并帮助LLM理解如何以一种或许不是人类，但至少是人性化的方式来回应。

速度问题

尽管LinkedIn拥有超过十亿会员，依靠LinkedIn的LLM工作的大部分求职功能最初是针对高级会员的，这是一个相对较小的群体。(LinkedIn拒绝透露其拥有多少高级会员。)

在如此大的规模运作时，速度是至关重要的，特别是在与相关职位匹配候选人这样细致的事务上。这里，人们认为LLM会有所帮助，因为LLM的一个经常被提及的优点是其速度，使它们能够迅速完成复杂的步骤。但Bottaro表示，LinkedIn的部署并非如此。

“我不会说LLM很快。我不认为速度是一个优势，”他说。

速度可以有多种定义。虽然在操作上LLM可能没有像希望的那样快，但Bottaro表示整体部署过程的加速令人震惊。“这项新技术的超能力在于你可以非常快速地创建原型，大约在两到三个月之间。在这项技术出现之前，这是不可能的，”他说。

当被问及如果没有LLM，项目的各个方面需要多久时，Bottaro表示有些可能根本无法完成，而其他元素“可能需要几年时间。”

作为一个例子，Bottaro提到了旨在理解意图的系统部分。没有LLM，这可能需要两到三个月，但LLM在“不到一周”的时间内就掌握了它。

成本考虑

Bottaro称之为“障碍”的一个方面是成本。同样，成本在项目的不同阶段意味着不同的东西，正如LinkedIn的经验所示。

“我们用于开发的金额微不足道，”Bottaro说。但当涉及到向LinkedIn的客户提供数据时，成本激增。

“即便只是针对几百万会员，”Bottaro说，这可能暗示了高级会员的数量，价格也飙升了。这是因为LLM的定价——至少是LinkedIn与Microsoft(其LLM提供商及母公司)达成的许可协议——是基于使用量的，具体来说是输入和输出令牌的使用量。

一位AI供应商的首席执行官Tarun Thummala在一篇与此项目无关的LinkedIn帖子中解释说，LLM的输入和输出令牌大约相当于0.75个单词。LLM供应商通常按成千上万或成百万卖令牌。例如，LinkedIn使用的Azure OpenAI在美国东部地区收费标准为每100万个8K GPT-4输入令牌30美元，每100万个8K GPT-4输出令牌60美元。

评估挑战

LinkedIn为其项目设定的另一个功能目标是自动评估。LLM在准确性、相关性、安全性和其他关注点方面的评估一直是个挑战。领先的组织和LLM制造商一直在尝试自动化一些工作，但据LinkedIn称，这种能力“仍然是在进行中”。

没有自动化评估，LinkedIn报告称“工程师们只能靠目测结果，并在有限的样本集上进行测试，且通常会有超过1天的延迟才能知道指标。”

该公司正在构建基于模型的评估器，以帮助估计关键的LLM指标，如整体质量得分、幻觉率、连贯性和负责任的AI违规情况。这样做将能够加快实验的速度，公司的工程师说，尽管LinkedIn的工程师在幻觉检测方面取得了一些成功，但他们还没有完成该领域的工作。

数据质量

LinkedIn在其职位匹配努力中遇到的部分挑战归结为双方的数据质量问题：雇主和潜在雇员。

LLM只能使用提供给它的数据，有时候职位发布并不精确或全面地说明雇主所寻求的技能。另一方面，一些求职者发布的简历表述不佳，无法有效反映他们在解决问题等方面的丰富经验。

在这方面，Bottaro看到了LLM帮助雇主和潜在雇员的潜力。通过改善雇主和LinkedIn用户的书写，双方都能受益，因为公司的职位匹配LLM在数据输入质量更高时能够更有效地工作。

用户体验

在处理如此庞大的会员基础时，准确性和相关性指标可能“给人一种虚假的安慰感，”Bottaro说。例如，如果LLM“90%的时间都做得对，这意味着十分之一的人会有糟糕的体验，”他说。

使这种部署更加困难的是，提供有用、有帮助且准确答案所涉及的极端细微差别和判断。

“你如何定义什么是好的，什么是坏的?我们花了很多时间与语言学家一起制定关于如何提供全面代表性的指导。我们也做了很多用户研究，”Bottaro说。“你如何训练人们撰写正确的回应?你如何定义任务，规定回应应该是什么样的?产品可能试图建设性或有帮助。它不试图假设太多，因为那是幻觉开始的地方。我们对回应的一致性感到非常自豪。”

实时运营

LinkedIn庞大的规模为职位匹配带来了另一个挑战。在拥有十亿会员的情况下，一个职位广告在发布几分钟内可能会收到数百甚至数千个应聘回应。如果看到已经有数百人申请，许多求职者可能就不会再费心申请了。这就要求LLM非常迅速地找到匹配的会员，在资质较低的申请者提交材料之前做出反应。之后，会员是否看到通知并及时做出反应仍然是一个问题。

在雇主方面，挑战在于找到最合适的应聘者——不一定是反应最快的人。一些公司不愿公布薪资范围，这进一步复杂化了双方的努力，因为最合格的应聘者可能对职位的薪酬不感兴趣。这是一个LLM无法解决的问题。

API和RAG

LinkedIn庞大的数据库包含了关于个人、雇主、技能和课程的许多独特信息，但其LLM尚未接受过这些数据的培训。因此，根据LinkedIn工程师的说法，它们目前无法使用这些资产进行任何推理或生成响应的活动，因为这些资产是如何存储和提供的。

在这里，检索增强生成(RAG)是一个典型的解决方案。通过建立内部API的管道，企业可以用额外的上下文“增强”LLM提示，以更好地指导和限制LLM的响应。LinkedIn的大部分数据通过RPC API公开，公司的工程师说这“方便人类以编程方式调用”，但“对LLM并不友好”。

为了解决这个问题，LinkedIn的工程师围绕其API“封装了技能”，给它们提供了一个“对LLM友好的API功能描述以及何时使用它”，以及配置细节、输入和输出架构以及将每个API的LLM版本映射到其底层(实际)RPC版本所需的所有逻辑。

LinkedIn的工程师在一份声明中写道：“像这样的技能使LLM能够执行与我们产品相关的各种操作，如查看个人资料、搜索文章/人员/职位/公司，甚至查询内部分析系统。”他们还提到，“同样的技术也用于调用非LinkedIn的API，如Bing搜索和新闻。”这种方法不仅提高了LLM的功能性，还增强了其与现有技术基础设施的整合能力，使得LLM能够更广泛地应用于企业的各个方面。