大语言模型会成为自动驾驶的灵丹妙药吗？也谈模块化方法和端到端方案~

写在前面 & 笔者的个人理解

人工智能（AI）在自动驾驶（AD）研究中起着至关重要的作用，推动其向智能化和高效化发展。目前AD技术的发展主要遵循两条技术路径：模块化和端到端。模块化将驾驶任务分解为感知、预测、规划和控制等模块，并分别进行训练。由于模块之间的训练目标不一致，综合效果存在偏差。端到端试图通过利用一个直接从传感器数据映射到控制信号的单一模型来解决这个问题。这条路径在一系列功能方面的学习能力有限，难以处理不可预测的长尾事件和复杂的城市交通场景。面对这两条路径中遇到的挑战，许多研究人员认为，具有强大推理能力和广泛知识理解的大型语言模型（LLM）可能是解决方案，期望LLM为AD系统提供更深入的理解和决策能力。鉴于这两条路径都面临的挑战，许多研究人员认为，LLM凭借其强大的推理能力和广泛的知识，可以提供一种解决方案。为了了解LLM是否可以增强AD，本文对LLM在AD系统中的潜在应用进行了深入分析，包括探索其在模块化和端到端方法中的优化策略，特别关注LLM如何解决当前解决方案中存在的问题和挑战。此外，我们还讨论了一个重要问题：基于LLM的通用人工智能（AGI）能否成为实现高水平AD的关键？我们进一步分析了LLM在促进AD技术发展方面可能遇到的潜在局限性和挑战。这项调查可以为相关领域的跨学科研究人员提供基础参考，并指导未来的研究方向。

简介

自动驾驶（AD）已成为现代交通领域的一个关键研究领域，其最近的发展在很大程度上依赖于人工智能（AI）。人工智能的发展一直是AD发展的催化剂，即使是最简单的高级驾驶辅助系统（ADAS）也需要人工智能来实现。因此，可以通过AI设计的视角全面了解AD解决方案的发展。

设计AI的两种不同方式，即模块化和端到端解决方案，形成了AD的两种常见解决方案，如图1所示。第一种解决方案，即模块化解决方案，是人工智能系统设计之前的遗留问题。这些解决方案将AD分解为几个独立的任务，通常包括感知、预测、计划和控制。虽然这种模块化简化了单个任务的实现，但它往往难以实现系统集成。不同的模型，每个模型都针对独立的目标，可能会导致系统内不可避免的差距和冲突，从而导致次优性能。因此，通过执行加强一致性可能是一项艰巨的挑战。

大语言模型会成为自动驾驶的灵丹妙药吗？也谈模块化方法和端到端方案~

第二种解决方案，即端到端解决方案，试图通过模仿人类行为的过程来解决这些问题。端到端解决方案利用大规模神经网络，直接根据传感器输入控制车辆。已经提出了不同的实现方式，包括模仿人类驾驶或基于控制结果的直接训练。然而，沿着这条路径的所有这些方法都有一个共同的缺点，即信息通道过长和网络结构复杂，导致在训练和引入专家知识时难以收敛。此外，端到端算法训练中涉及的数据主要与驾驶有关，而人类驾驶员在驾驶过程中利用常识和其他信息。这些挑战限制了端到端算法的进一步改进。

除了这些具体问题外，这两种解决方案在现实世界的应用中都面临着一些挑战，包括确保鲁棒性、验证性、可解释性和高效的人机交互。因此，应对这些挑战已成为AD研究的主要重点，强调了有效解决方案的必要性。

2022年底ChatGPT问世以来，人工智能领域掀起了一场新的革命。由于其庞大的规模、大量的数据和训练所涉及的技术（例如，从人类反馈中学习），大型语言模型（LLM）已经具备了推理、数据生成和理解人类意图等能力。这些能力使LLM能够在各种自然语言处理（NLP）任务中超越以前的模型。LLM在智能交通系统等各个领域的应用正在上升。具体而言，LLM的能力为AD研究中的上述挑战提供了创新的解决方案。例如，推理能力可以帮助理解和适当地应对看不见的角落情况，提高鲁棒性。生成能力可用于测试用例生成。增强对人类意图的理解有助于解决可解释性问题，改善人机交互。

最近，LLM开创了AD研究的一个新领域。研究人员越来越相信，LLM可以为传统AD解决方案提供新的视角。此外，有一种观点认为，LLM进一步为实现通用人工智能（AGI）铺平了道路，这让我们回到了关于实现完全AD的辩论。一些专家认为，大规模、通用、强大的智能是必要的，而另一些专家则认为，规模较小的特定智能体就足以完成AD任务。站在这个十字路口，本文从AD系统实施的角度系统地概述了采用LLM的最新AD进展，重点讨论了以下问题：

AD研究目前面临的挑战是什么？具体来说，这是一组与AD实施中的不同任务相对应的具体挑战（即正文中的挑战i至X）。
LLM能否为这些挑战提供卓越的解决方案，以及如何提供？
AD的最终解决方案是什么？AD算法优化的目标应该是什么？

Autonomous Driving Solutions

模块化

模块化解决方案将AD系统分解为不同的模块。通常，这些模块包括感知、预测、计划和控制。

感知

感知涉及环境信息的收集、有用知识的提取以及理解环境的判断的形成。感知的准确性和全面性对于自动驾驶汽车（AV）有效地应对复杂的交通场景至关重要。感知任务最初仅限于“如何看？”的问题。这指的是对周围物体的识别和跟踪，包括静态物体（如车道、交通信号灯和其他交通基础设施）和动态物体（如车辆和道路使用者）。随着过去二十年来传感技术的进步和机器学习（ML）的发展，这些基本任务不再构成挑战。车道检测或交通信号识别等基本应用现在可以在大多数情况下正确执行，为推广低级高级驾驶员辅助系统（ADAS）铺平了道路。

更先进的传感器和神经网络结构也为感知算法提供了新的视角，感知算法已经从对象级发展到场景级。鸟瞰图（BEV）和基于Transformer的方法的出现使识别综合场景成为可能。BEV将车辆周围的多模态3D数据投影到2D地图上，确保数据表示的一致性。Transformers最初是为NLP设计的，由于其强大的注意力机制，已经证明了它们在建模多源异构数据方面的有效性。这使得BEV表示能够熟练地捕获全面的空间信息。遵循这一范式的方法，如BEVForme，在各种感知任务中表现出了卓越的性能，成为主要的感知解决方案。然而，BEV在高度信息方面的不足限制了其表示3D体积的效率。占用网络通过直接学习体素中的3D信息、将3D表面描绘为神经网络决策边界以及消除对LiDAR点云的需求来支持BEV。它们融合了几何和语义来精确地描绘场景，提高了感知效率和准确性。

随着情景信息的获取不再具有挑战性，目前的研究重点已转向通过可靠和详细的表示来全面了解环境的最终目标，即“What to see?”的问题。这要求感知系统非特定地识别周围的物体，识别它们的属性和相互作用，并彻底理解场景。从历史上看，AD感知算法经常将时间和3D空间数据合并到2D对象检测框架中（例如YOLO、CenterNet），合并来自LiDAR、相机的输入，并利用PointNet等不同的深度学习模型进行信息处理。然而，在不同尺度（如时间、空间、任务相关）上整合特征带来了挑战。

尽管取得了长足的进步，但现有的感知解决方案仍然面临着几个挑战。第一：

CHALLENGE I: How to improve the performance of perception systems in the real world or uncontrolled environments?

当前基于学习的方法严重依赖于训练数据，当遇到现实世界数据长尾分布中存在的角点情况时，它们的性能会显著下降。第二：

CHALLENGE II: How to form a comprehensive understanding of complex scenarios like humans did?

当前的场景理解方法更像是简单地整合所有数据和模态，而不是理解场景。最后：

CHALLENGE III: How to enhance the efficiency of processing the vast amount of sensor data collected and establish a more unified data annotation method?

这些挑战凸显了AD的复杂性以及在该领域进行持续研究和创新的必要性。

预测

预测是AD过程中的一个关键组成部分，其目标是根据物体过去的运动轨迹预测物体（主要是行人和车辆）即将到来的运动轨迹。该模块最初不是AD工作流的一部分。随着过去二十年AD解决方案的演变，预测作为一个独立的部分逐渐引起了人们的关注，弥合了感知和规划之间的差距。从功能上讲，它直接利用感知作为输入，而其输出则是后续规划和控制任务的重要参考。从时间的角度来看，预测代表了从过去到现在和未来的过渡，这是端到端工作流不可或缺的过渡。传统的预测方法主要是基于模型的。这些包括物理模型、意图模型和交互模型。这种方法在处理轨迹的不确定性方面存在局限性，特别是在较长的时间范围内。

在过去的十年中，基于学习的方法逐渐主导了预测任务的解决方案。例如，循环神经网络（RNN）及其衍生网络架构，如长短期记忆（LSTM）网络，在基于深度学习的预测范式中得到了广泛应用。其他使用的网络架构包括卷积神经网络（CNN）和图形注意力转换器。这些基于学习的方法显著提高了更广泛时期内预测的可靠性和准确性，而BEV等感知技术的进步实现了多目标协同预测。这标志着预测建模领域的发展，强调了协作预测策略在实现卓越预测结果方面的重要性。根据目标的不同，最新的预测方法能够提供持续几秒甚至十多秒的轨迹准确预测。在大多数情况下，这对于后端AD任务来说是足够的。

目前对预测任务的研究旨在提高动态环境中的准确性，以提高AD的安全性和效率，这需要关注的不仅仅是轨迹，还有情况。车辆必须了解并适当应对社会动态或不同的环境，这可以归结为另一个具体的挑战：

CHALLENGE IV: How to realize comprehensive situation-aware predictions in complex scenarios?

应对这一挑战将是朝着更准确和更先进的预测方法迈出的又一步。

规划

规划是指自动驾驶汽车根据给定的交通环境和车辆的情况设置未来驾驶路线或轨迹的过程。根据具体的功能和规划范围（空间和时间），规划通常可分为路线规划、行为规划和轨迹规划（也称为运动规划）。具体而言，路线规划概述了车辆的道路网络级路径，通常称为“导航”。行为规划在规划路线上的重要航路点提供决策。轨迹规划生成了一个精确的时空轨迹，连接车辆要遵循的路点。

尽管有各种目标和限制，但不同的规划任务可以以类似的方式制定，因此共享类似的方法。例如，原始规划方法起源于传统的搜索方法，包括A*、快速探索随机树等。这些被称为基于搜索的规划方法。基于优化的方法利用优化理论来搜索最优轨迹。与基于搜索的方法相比，这些方法在复杂场景中更省时。

基于学习的方法也出现在规划中。例如，强化学习（RL）在规划任务中得到了广泛的应用，规划任务通常被表述为马尔可夫决策过程。模仿学习（IL）为基于学习的计划提供了一种不同的范式。其他方法将神经网络与现有的规划方法相结合，或使用神经网络直接生成计划轨迹，为规划任务提供实时在线解决方案。

目前规划方法的研究差距主要在于两个方面。第一：

CHALLENGE V: How to improve the performance of planning methods when facing complex kinematic or scenery constraints?

这要求系统更好地整合来自前端模块的信息，同时处理继承的不确定性。第二：

CHALLENGE VI: How to bind the planning tasks to form a more integrated hybrid planning?

这将有利于规划过程的稳健性和更好的性能。

控制

传统模块化的最后一步是控制，它涉及车辆沿着预设的计划轨迹行驶（轨迹跟踪）。这种过程的基本目标是使目标轨迹和真实车辆轨迹之间的误差最小化。其他控制目标包括提高稳定性或乘坐舒适性。

已经为控制过程开发了各种控制器和方法。基本控制方法，如纯追踪[24]，主要考虑了车辆的运动学约束。相比之下，其他方法结合了车辆的动态特性来实现更精确的控制。控制器，如模型预测控制（MPC），擅长管理更复杂的场景。鉴于车辆相对于外部环境的固有稳定性和控制问题的性质，基于学习的方法在控制任务中的使用频率较低。然而，混合控制器的出现值得注意，例如基于学习的MPC，它融合了传统控制器和基于学习的控制器。

车辆控制的主要挑战在于一个问题。

CHALLENGE VII: How can controllers adapt to various, comprehensive scenarios?

现实世界的场景包括从车辆达到稳定性阈值的极端操作条件到个性化控制要求。适应各种场景需要控制器具有更好的鲁棒性和精确调整的空间。控制模块还需要与AD解决方案中的前端模块协调，以实现更好的性能。

端到端

与模块化解决方案相比，端到端AD采用了不同的路线图。从狭义上讲，端到端AD试图模仿人类驾驶车辆的方式，其中使用一个大规模神经网络将原始传感器输入直接映射到车辆的轨迹点或控制命令。端到端AD的第一次尝试，即神经网络中的自主陆地车辆，可以追溯到20世纪80年代。它试图将相机和Lidar的输入直接映射到车辆的转向控制。

随着机器学习方法的进步，端到端AD在过去十年中蓬勃发展。端到端AD中应用最广泛的学习技术是IL。IL是一种监督学习方法，可进一步分为行为克隆和逆最优控制。端到端AD中涉及的另一种学习方法是RL，并且应用了包括策略蒸馏在内的技术来提高算法的性能。此外，数据集的不断积累、日益完善的测试环境和评估指标进一步加速了端到端AD的实际应用。使用端到端方法训练的Tesla FSD系统等AD系统已经应用于开放环境。

随着对端到端解决方案的研究不断深入，重点正转向这些解决方案背后的核心思想，而不是其形式。端到端方案的集成方法为传输各种类型的信息和数据提供了一个统一的渠道。这最大限度地减少了信息在不同模块或子任务之间传输过程中的丢失和压缩，这被认为是端到端解决方案的优点之一。应用这一理念，许多模块子任务的广义“端到端”应用正在出现，特别是被划分为多个分层子任务的感知和规划模块。例如，“端到端”感知模块将传感器的数据作为输入，同时提供集成和完整的场景感知输出。这些通用的端到端模块使子任务的训练和执行更加顺畅和高效。

与此同时，端到端AD系统的形式也在不断发展。例如，最新的统一端到端自动驾驶（UniAD）解决方案，被称为“模块化端到端AD”，集成了AD的三个主要任务和六个次要任务。每个模块在网络结构方面保持相对独立。在训练过程中，每个模块在整个系统训练之前都经过预训练，以确保训练目标的一致性。这种方法在闭环仿真验证中表现出了出色的性能，证明端到端解决方案的本质不一定是用单个网络完成所有任务。

尽管端到端解决方案正在迅速发展，并解决了模块化AD系统中的一些现有问题，但还存在一些其他挑战。与模块化AD相比，端到端系统在更大范围内利用神经网络，几乎完全依赖于训练数据，这两者都增加了训练过程中的挑战。例如：

CHALLENGE VIII: How to establish datasets, including selecting specific data and generating new cases, with better quality so as to support the training of end-to-end algorithms?
CHALLENGE IX: How to improve the training efficiency (e.g., design better reward functions) of end-to- end solutions?
CHALLENGE X: how to improve the interpretability of end-to-end solutions?

大语言模型的发展

现代语言处理模型起源于两种范式：基于规则和统计。基于规则的语言模型依赖于手动定义的语法、语义和语用规则，使用一组手动规则生成自然语言。这种方法的局限性在于需要大量手动设置的规则，这使得在真实的语言语料库中覆盖所有场景变得具有挑战性。另一方面，统计语言模型依赖于大型语料库中的词汇统计分布，例如在上下文中使用n个单词预测文本的n元语法模型。这些模型标志着语言处理中理性主义方法的开始。

随着深度学习的进步，研究人员开始使用神经网络模型来学习自然语言的复杂结构和语义信息。RNN成为处理自然语言和其他时间序列问题的经典模型框架。通过引入跨时间步长共享的循环结构和权重参数，RNN可以处理不同长度的自然语言文本序列并捕获隐藏特征。LSTM网络是对传统RNN的改进，引入了存储单元，有选择地保留或忘记信息，以有效解决梯度消失或爆炸等问题。在此基础上进行的一些工程包括门控循环单元（GRU）。2017年，Transformer凭借其强大的上下文处理能力，逐渐开始应用于NLP任务。与之前的统计模型相比，这些基于神经网络的模型在处理语言中的表示和特征方面具有更好的方法，从而在特定的NLP任务中表现出更好的性能。

随着网络结构的进步，一种新的语言模型训练方法——预训练，也有助于语言模型的进一步发展。2018年，谷歌推出了BERT（变压器的双向编码器表示），这是一种基于注意力机制的预训练语言模型。它采用两阶段策略，首先在大规模语料库上进行无监督预训练，然后对特定任务进行监督学习微调，以适应下游任务。第一个生成预训练模型GPT-1也于2018年由OpenAI发布。GPT-1利用基于Transformer架构的网络模型，特别是仅使用解码器的结构，通过生成式预训练和判别式微调，在特定任务上实现了卓越的性能。GPT-2是2019年发布的高级版本，也采用了只有堆叠编码器的结构。与GPT-1不同，它使用无监督学习模式，仅基于输入和任务概率模型预测输出。这些模型可以称为“预先训练的语言模型”，它们对零样本学习和迁移学习具有重要意义，为LLM的发展铺平了道路。

LLM的参数达到一定规模（例如数十亿或数千亿），在过去三年中作为一种新兴的人工智能技术引起了广泛关注。它们继承了预训练语言模型的结构和训练范式，并受益于其规模增加所提供的可扩展性和涌现效应。LLM不仅在语言相关任务中实现了显著的性能提升，而且还展示了上下文学习等能力，可以应用于其他不同的场景。2020年，在GPT-2的单向语言模型训练之后，引入了GPT-3，但使用了更大的模型和数据集。实验结果表明，GPT-3在小样本学习场景中取得了优异的性能。2023年3月，OpenAI发布了GPT-4，同年5月，GPT-4的技术报告发布。与过去三个版本的GPT相比，GPT-4在小样本学习、逻辑推理、多模式理解、安全性和对更长上下文的支持方面取得了重大进展。

类似的LLM还包括Genimi，它利用PaLM 2等高级语言模型在NLP和信息检索方面表现出色；Claude强调安全性和可解释性，在需要安全和对齐的人工智能系统的场景中尤其有价值；LLaMA，一种开源模型，通过提供一个可访问的平台来探索LLMs，对研究界产生了重大影响；Command R专注于检索增强生成，以增强内容创建和业务应用。

大语言模型在自动驾驶中的应用

模块化方法

感知

在AD感知任务中，LLMs促进了传统感知任务解决方案的改进，开辟了新的研究方向。目前，LLMs在感知任务中的应用主要集中在以下几个方面：

首先，LLM可以直接用于传统的感知任务。尽管该语言很难直接用于获取或描述周围环境，但它可以作为模态之间的缓冲区，并与视觉和激光雷达等模态结合，进行简单的推理。这提高了感知任务的效率，并优化了不同场景下的性能。例如，[48]使用LLM来分析行人的语言线索，从而提高行人检测的准确性。

此外，由于LLM能够理解复杂的场景，LLM已被直接用于对复杂场景的全面感知，整合各种感知信息以理解复杂的交通环境和驾驶情况。LLM通过分类、识别和理解交通场景中动态和静态元素之间的关系，提高了对AD系统内复杂交互的理解。他们还对这些元素在时间和空间上的相互作用进行了推理，为挑战II提供了解决方案。例如，[52]利用传统的3D感知管道来增强VLM的感知能力。在GPT-4V（ision）的道路上，[53]展示了VLM在处理非分布场景和在实际驾驶环境中识别意图方面的潜力。

LLM的综合能力也揭示了角案例的问题，这是当前感知算法中一个值得关注的问题（挑战I）。[56]分析了LLM理解AD场景的能力，确定了LLM实现类人表现的关键能力，指出LLM能够通过理解情况来解决AD中的关键问题。

最后，LLMs还通过语言情态以各种形式增强现有的感知数据。这些应用程序不仅促进了人与机器之间的透明可解释性，还促进了LLM进一步进行规划和控制，为挑战III提供了一种可能的解决方案。例如，关于对象引用，[59]提出了一种统一的视觉语言模型，该模型可以引用人类指令中描述的对象并在图片框中生成边界框。[60]提出了一种基于GPT-4的上下文感知视觉接地框架。该框架可以响应自然语言指令，引用提到的关键对象，并提供对人类当前情绪的分析。基于OpenFlamingo VLM框架，使用扎根思维链指令训练了一个视觉语言模型，该模型旨在吸收类人能力作为对话式驾驶助手，以与AD任务保持一致。训练好的模型能够提供对场景的理解。

预测

由于LLM的任务能力更强，预测任务以两种方式发展。一方面，预测通常是使用LLM与感知或规划相结合来实现的。这将提高系统的整体效率，并为预测部分提供更准确的信息。[67]嵌入自然语言描述和交通场景的光栅化图像表示，以实现轨迹预测。[68]使用LLM从过去的轨迹中得出运动线索，并将其与传统方法相结合，以更好地预测未来的轨迹。

另一方面，LLM利用其推理能力进行情景预测，为挑战IV提供了部分解决方案。[71]提出了一种将高分辨率信息整合到多模态LLM中的方法。语言模式用于对低分辨率视频进行推理，并为高分辨率视频帧提供先验和亮点。该框架还根据预测的风险和情景为即将发生的行为提供了建议。

规划

LLMs的推理能力和常识使他们能够为车辆制定各种计划，并担任车辆驾驶员。通常，规划任务包括路线规划、行为规划、轨迹规划和混合规划。

关于路线规划，LLM可以使用地图信息、交通规则和用户意图来规划车辆的最佳路线。可以考虑交通拥堵、道路建设和天气条件等因素来选择最方便、最安全的路径。[73]将LLM应用于周围环境的口头描述、导航指令和其他相关信息，以提供城市环境中的元动作级导航序列。[74]使用LLM提取用户的意图，并相应地以描述和地图注释的形式提供路线规划。

在行为规划方面，LLM可以决定车辆在不同情况下的行为，如加速、减速、变道和避开障碍物。这种元动作决策可以使用自然语言来理解和执行，需要综合考虑车辆动力学、周围环境和其他车辆的行为。[76]提出了一个持续学习框架，以增强AD中多模态LLMs的行为决策。[77]利用LLMs根据特定情况提供元动作级行为。LLMs能够学习专业司机的经验，逐步提高他们的驾驶技能。

关于轨迹规划，除了定量元动作外，LLM还可以为车辆提供更精确的轨迹，例如包括转弯、超车和停车在内的轨迹。[80]利用LLM的闭环框架在复杂场景中提供定性运动规划。副驾驶框架能够以坐标点的形式为车辆提供详细的轨迹[81]。

关于混合规划，LLM的推理能力也使混合规划（挑战V）成为可能。这种混合管道整合了不同层次的规划，甚至部分感知，形成了“端到端”的规划解决方案。[52]提出了一种包含场景描述、场景分析和层次规划的思维链（CoT），以形成车辆的轨迹计划。[82]提出了一种“GPT驱动程序”，利用GPT作为AD任务的运动规划器，通过“提示推理微调”过程实现。[83]在实际驾驶任务中使用了LLM，其中LLM用于生成规划车辆运动的代码。下游控制器也被用来控制车辆。

除了在规划中直接应用LLM外，另一种常见的方法是将LLM与现有的规划方法相结合。LLM通过推理或增强来提高传统方法的性能。这可以称为基于模型的规划（解决挑战VI）。[86]提出了一种利用LLM来提高感知、预测和规划性能的框架。

控制

由于控制任务对快速响应的要求，LLM目前很难直接替换现有的控制器。然而，由于LLM的理解和推理能力，他们可以在更高的层次上参与控制任务，例如与规划任务相结合，以提高效率和对不同场景的适应性（解决挑战VII）。[88]将LLM与MPC相结合，在AD场景中精确控制车辆。LLM在此过程中提供高级决策，并使用相应的矩阵对MPC控制器进行微调。该框架也被认为适用于多车辆控制场景。

还多次尝试将LLM直接应用于AD车辆的控制。它们中的大多数将计划和控制相结合，根据元动作提供更精确的控制器信息。[81]提出了一种使用ChatGPT作为控制器选择器的Co-Pilot框架，该框架可以完成所需的任务并调整其输出以正确满足人类意图。

端到端方法

作为一种更系统的解决方案，LLM参与了端到端AD解决方案实施过程中的不同步骤，总结如下。

数据基础

基于学习的AD算法，特别是端到端解决方案，在很大程度上依赖于海量数据。因此，作为解决方案的一部分，提出了许多用于训练基于LLM的端到端算法的新数据集。这些数据集大多包含自然语言注释，因此提供了一个全面的渠道，通过这个渠道，语言可以在训练和实现过程中应用。这种注释也可以作为一种提炼的知识，从而提高训练效率。[92]使用基于Graph VQA的工作流来实现端到端AD，提供了一个包括数据集、任务、基线和指标的整体解决方案。[65]集成视频帧和文本作为输入，模型的输出包括响应和预测控制信号。训练过程包含两个阶段，预训练和混合微调，后一阶段使用ChatGPT注释数据。

表1列出了更具代表性的LLM相关数据集。值得注意的是，这些数据集的贡献不仅限于端到端的解决方案，因为它们为所有AD任务的开发和验证提供了重要的参考。这些数据集中自然语言的比例增加，从简单的标签过渡到自然语言描述或问答格式，也导致了与感知相关的挑战II和III。例如，[50]提出了一个基于NuScene数据集的数据集，其中包含3D驾驶场景中物体的自然语言注释。

大语言模型会成为自动驾驶的灵丹妙药吗？也谈模块化方法和端到端方案~

除了基于真实场景的数据集外，在LLM生成能力的帮助下，场景生成也成为AD数据集的一个重要方面。这种能力有助于解决数据分布的长尾问题，提高训练效率。[95]提出了一个框架，即LCTGen，用于基于描述和地图数据生成动态交通场景进行模拟。LLM用于将场景的自然语言描述转换为场景的结构化表示。SimCopilot利用LLM将对象交互的自然语言描述转换为虚拟道路场景的编程代码，大大简化了AD系统交互数据的创建。WEDGE数据集直接使用DALLE大模型生成场景图像，模拟各种天气条件下的二维道路和交通场景，这是构建AD数据集的一种新尝试。

作为端到端代理的大语言模型

LLM本身可以充当代理，同时完成所有驾驶任务。Agent Driver利用LLM作为车辆的智能代理。该代理旨在通过函数调用访问驾驶信息，并充当人类。[110]提出了一种架构，该架构将场景信息编码为数字向量，并应用预训练的LLM来理解场景并提供运动水平控制。它还能够提供其行为的原因，提高解决方案的可解释性。[111]提出了一种开创性的AD通用世界模型，该模型集成了多模态LLM和扩散技术，使其能够直接预测控制信号，并根据历史视觉动作对生成未来帧，从而模拟无限的驾驶体验。Graph VQA实现了基于VLM的端到端AD流水线。在这种方法中，视觉问题引导推理过程通过不同的阶段，在复杂的场景中取得了显著的性能。

训练和思考

正如挑战IX所述，端到端AD解决方案的训练一直是一个重要的话题。法学硕士主要通过更好的推理和反思提高了这一过程的效率。[113]提出了一种新的端到端AD数据集和基准，其中包括传感器数据、控制决策和CoT标签，以指示推理过程。它还提出了一个基线模型DriveCoTAgent，在该数据集上进行训练，以生成CoT预测和最终决策，在开环和闭环评估中表现出强大的性能，并提高了端到端驱动系统的可解释性和可控性。DriveGPT4能够在模拟环境中执行零样本泛化，显示出提高训练效率的潜力。

其他方面

除了直接实现AD任务外，LLM还广泛应用于支持AD的应用，包括人机交互、安全、道德和公平问题。关于人机交互，[114]提出了一个框架，可以通过评估和迭代优化使用LLM执行AD任务的代码。[115]提出了一个以人为中心的框架，将LLM整合到AD的规划中，在复杂的驾驶任务中提供有用的帮助，并通过推理回应不同的查询。AccidentGPT可以响应驾驶员的查询，或自动提供具体建议（例如减速）和驾驶安全通知。

大语言模型会成为自动驾驶的灵丹妙药吗？

在第4节中，我们系统地展示了LLM在AD中的应用越来越多。这些应用涵盖了AD的整个领域，许多应用展示了LLMs超越现有AD算法并应对前面讨论的挑战的潜力。根据我们的调查和分析，我们试图通过基于LLM的AD解决方案的进展，提供对这些现有挑战已经或预计将如何解决的见解。因此，我们将这些见解分为以下三个层次，并在表2中描述了挑战。

解决方案洞察A：LLM在解决相应挑战方面表现出了显著的能力，可以期待基于LLM的全面解决方案。
解决方案洞察B：LLM已经证明有能力解决相应的挑战，但鉴于LLM目前的缺点，挑战可能无法完全解决。
解决方案洞察C：LLM可以提高相关任务的性能，但可能无法解决挑战中的关键问题。

大语言模型会成为自动驾驶的灵丹妙药吗？也谈模块化方法和端到端方案~

如表2所示，我们可以得出结论，LLM在为现有AD算法中的当前挑战提供有效解决方案方面表现出了巨大的潜力。具体而言，我们认为LLMs在AD任务中的表现主要源于以下几个方面。

常识。常识是每个成年人都应该具备的实际判断或基本事实知识的基本水平。它是人类基于积累的经验和知识而提炼出来的理解。常识在日常生活中起着至关重要的作用。人类通过模仿快速获得特定技能的能力与此密切相关。例如，一个成年人需要大约20个小时的训练才能通过驾驶考试。这是因为训练主要侧重于驾驶的操作技能。许多其他与驾驶相关的技能，如识别交通信号或标志，都是直观理解的，不需要大量学习。然而，对于AD模型，每个元素都必须单独设计和训练。法学硕士从广泛的语料库中积累了一种“常识”。这可以被视为高维空间中特定语义指标的表示。例如，与“红灯”和“停车”概念相对应的表示向量可能在表示AD行为的维度上具有紧密投影。这使得LLM能够以最少的预先指令执行复杂的AD任务，并使很少的射击学习成为可能。
推理能力。与以前的语言模型相比，LLM能够理解文本输入中的因果关系和逻辑关系。因此，一些研究人员认为LLMs能够像人类一样进行推理。这种推理能力增强了LLM对交通场景的理解，这对于需要预测未来情况并做出相应决策的AD任务至关重要。此外，LLM的推理能力为AD中遇到的“长尾”问题提供了一种潜在的解决方案。即使在极端情况下，这些模型也可以根据其推理做出准确的决策。
沟通能力。LLM的另一个重要能力是它们可以与人类流利地交流。重新审视人类的驾驶行为，我们可以注意到语言主要用于导航和路线描述。LLM可以理解人类的意图，并通过推理提供适当的输出，因此可以直接参与驾驶过程。除了驾驶任务本身，与人类沟通的能力也有利于LLM在训练和调整过程中。人类和LLM之间的相互理解和互动在一定程度上解决了神经网络作为黑盒模型的问题。

我们注意到，LLM的这些优势部分解决了数据驱动学习算法遗留下来的几个长期缺陷。这些算法在AD实现中得到了广泛的应用，给AD任务带来了特定的挑战。因此，LLM能够为他们提供解决方案。此外，我们可以得出结论，这意味着从以数据为中心的模型向利用数据和知识的混合模型的转变。这种双重驱动的方法结合了两种范式的优点。从执行驾驶任务的角度来看，这种转变也使实施过程更类似于人类决策，这可能是AD的最终目标。我们预计未来数据和知识将在相当长的一段时间内共存，可能以LLM的形式体现出来，知识在AD解决方案中的作用逐渐凸显。未来的研究应侧重于如何更好地整合数据驱动和基于知识的方法，以提高AD解决方案的训练和实施效率。

存在的限制

尽管取得了各种进步，但我们必须指出，LLM在AD中的进一步应用面临着许多局限性和挑战。作为一种安全关键场景，这些局限性需要在未来的研究中得到更多的关注。其中一些局限性主要是由于当前LLM性能的缺点，这些缺点继承了它们的模型结构、训练方法或实现。

LLMs的“幻觉”问题。“幻觉”是指LLM在没有充分依据的情况下给出的结果与事实或用户要求不符的情况。这种现象在LLM中很常见，作为一个具有高安全要求的系统，在AD过程中对这些问题的容忍度非常低。因此，必须采取措施防止幻觉问题。现有研究表明，LLM的幻觉主要来自数据、训练和推理过程。为了解决这些原因，可以使用检索增强生成（RAG）、改进预训练和调优过程以及设计CoT等方法来改进。此外，为了防止可能的错误结果影响车辆的实际运行，还可以设计保险机制，并使用其他规则来判断LLM输出的合理性。
模型响应时间。实时性能差是目前LLM的缺点之一。无论模型是在线还是离线，LLM的巨大数量都使其响应延迟难以忽视。这在AD的背景下可能会产生严重的后果，特别是对响应时间高度敏感的任务（如控制）。一方面可以通过提高计算能力来解决这个问题，另一方面，在实时性能得到解决之前，LLM可能更适合具有更高延迟容限的任务。
对物理世界缺乏了解。虽然LLM在处理和生成文本方面很强大，但在理解物理世界方面却有一个明显的缺点。他们缺乏与环境互动并从中学习的能力，这意味着他们对重力、动量或物体纹理等物理概念没有直接的理解。他们无法像人类甚至一些机器人那样体验世界。他们的知识完全基于他们接受训练的文本，他们很难根据现实世界的经验或感官输入来更新这些知识。这限制了他们准确建模或预测物理现象的能力，并可能导致在物理世界中产生无意义或不正确的输出。当将这些模型应用于需要深入了解物理世界（如驾驶车辆）的任务时，这是一个重大限制。进一步提高LLM有效捕获和理解现实世界信息的能力非常重要。

其他挑战来自LLM和AD任务的结合。

隐私和安全考虑。自动驾驶汽车使用的数据通常非常敏感，包括特定位置、驾驶习惯等细节。这些数据对于微调AD任务的LLM至关重要。这引发了严重的数据隐私和安全问题。例如，如果法学硕士在无意中包含个人信息的公开数据上接受培训，它可能会学习和复制这些信息，从而导致隐私泄露。确保这些数据得到安全处理，并且模型不会无意中泄露这些信息，这是一个关键的挑战。
语言造成的偏见。我们注意到，现在几乎所有的法学硕士都使用英语作为对话语言，涉及其他语言的实验和研究很少。由于语言具有更强的区域性，我们认为这可能会成为一种潜在的偏见，即使用不同语言时模型的性能无法保持一致。这种偏见可能比基于视觉和其他模式的算法更明显，也可能带来潜在的伦理和道德风险。此外，训练数据隐私和数据集安全等问题也值得关注。我们认为可以进行进一步的研究来解决这些问题。

在LLM应用于现实世界的AD应用之前，需要解决这些挑战，但我们相信，LLM和相关AD解决方案的快速发展将不断为这些挑战提供新的见解。

Perspectives

自AD概念提出以来，研究人员一直在探索实现这一目标的不同途径。针对不同的技术路径，已经进行了许多讨论。因此，我们想回顾一下其中的一些讨论，并就AD的最终解决方案提出一些看法。

端到端 or 模块法自动机爱谁

模块化和端到端方法一直是AD技术讨论的前沿。本文的引言部分总结了这两种路径的一些优缺点。然而，LLMs为这场讨论带来了新的亮点。一方面，LLM的出现模糊了模块化和端到端方法之间的界限。LLM的多功能性使其能够同时完成多项任务，从而打破了传统的模块化界限。例如，LLM执行的许多规划任务直接基于原始传感器输入。从功能上讲，这种实现涵盖了从感知到规划的所有方面，在形式上，它们可以被视为接近端到端的实现。我们认为，随着模型泛化能力的增强，这种模糊可能会成为一种趋势。

另一方面，研究人员已经开始更加关注端到端方法的核心，而不是形式本身。端到端解决方案的优点可以概括为提供统一的信道，减少不同模块之间的信息传输损失。换言之，只要确保信息的完整传递，形式上的差异就不再重要。这也是UniAD“模块化端到端”的起源。这种端到端方法形式的转变也可能为端到端算法的测试和验证等现有问题提供解决方案。

因此，我们可以相信，端到端和模块化在形式上的区别将继续减弱，但考虑到系统的安全性和鲁棒性，一些成熟的模块（如ADAS）将在实际应用中长期保留。

通用人工智能与驾驶智能

最后，我们得出了AD领域长期存在的一个争论：高度先进的AGI对于实现最佳AD是否不可或缺？一方面，正如我们之前提到的，LLMs所拥有的常识和其他知识在执行AD任务中发挥了重要作用。虽然我们还不能确定LLM是否是AGI的重要途径点，但它们在一定程度上满足了人们对AGI的期望。应用自然语言的能力使他们能够有效地从庞大的人类语言语料库中学习，并以易于理解的方式与人类互动。另一方面，人类的驾驶技能相对独立。例如，一位经验丰富的卡车司机可能没有受过高等教育，而AD研究人员可能没有驾照。这意味着通用人工智能不一定是最佳AD的唯一解决方案。

从理想主义的角度来看，构建一个驾驶智能实体似乎更容易。我们距离AGI还有很长的路要走，而随着大模型、世界模型等的成熟，驾驶智能更容易实现。如果我们能够开发专门用于驾驶智能的算法，我们可能能够解决更多与大型模型相关的问题。然而，实现这一目标也带来了许多挑战。首先，最优AD的定义仍然有些模糊。什么样的驾驶策略可以被称为最优，仍然是一个值得进一步研究和讨论的话题。此外，理想化最优驾驶模型本身的实施也存在一些挑战。例如，由于人类认知的局限性，精确定义最佳驾驶所需的知识是具有挑战性的。图2从知识的角度说明了这一点。最佳驾驶所需的一些知识可能还没有一种方法可以总结，例如经验丰富的驾驶员在关键情况下做出的直观判断。

另一方面，我们相信LLMs在不久的将来仍将是AGI类药物的最佳形式之一。因此，LLM驱动的AD仍将是一个值得注意的研究前沿。为了进一步优化LLM在AD任务中的应用，我们认为可以在以下领域进行研究。首先，优化LLM本身的结构，设计更有效的培训方法。与现有模型相比，这些改进可以增强模型在推理、常识等方面的能力。此外，设计更好的结构可以帮助减少微调和本地部署期间的计算功耗。这有助于在智能车辆中部署LLM，改善响应时间长的问题，并降低应用LLM的成本。此外，在AD和LLM的集成中可以进行各种优化。例如，在预训练阶段引入更多与AD相关的数据。现有智能车辆的软件和硬件结构也可以进行优化，以支持LLM的系统级集成应用。

总的来说，这个问题可能在很大程度上取决于人工智能技术的后续发展：通用人工智能的发展能否实现快速突破，或者驾驶智能模型能否更快地实现。我们认为，在相当长的一段时间内，这两种方法都有其优势，将共存或相互备份，就像模块化和端到端解决方案一样。