把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架：完美把控乘客意图

作为本年度人工智能领域最重要的突破之一，大语言模型相关研究始终是各大相关领域的关注焦点。

近日，来自清华大学、中国科学院、MIT的科研人员对于大语言模型在人机交互领域中的应用进行了研究，设计了一种名为Co-Pilot的人机交互框架，使用提示引导ChatGPT（gpt3.5）在考虑人主观意图的同时完成简单的自动驾驶任务。

论文链接：https://www.researchgate.net/publication/374800815_ChatGPT_as_Your_Vehicle_Co-Pilot_An_Initial_Attempt

该研究作为最早一批使用原生语言大模型直接介入自动驾驶任务的尝试，揭示了大语言模型在自动驾驶领域进一步深入应用的可能性，也为后续相关研究指明了方向[1]。

研究背景：为什么使用大语言模型？

人车交互作为智能汽车发展的重要功能之一，对降低司机驾驶负担、提升乘客出行体验有很大帮助，相关功能也成为了消费者在选择时的重要标准。

尽管现有人机交互系统已经可以实现语音识别、指令执行等功能，但大多数情况下系统仅能根据既定指令的训练在有限范围内给出回答或响应，存在一定的局限性。

相比之下，大语言模型在此类能力上具有更好的表现：

1. 可以理解人的意图：

大语言模型具有推理能力，其可以从文字中理解说话者的真正意图，并给出相应的回应；

2. 拥有常识：

得益于大量的训练数据中包含的知识，大预言模型具有一定的常识，并掌握许多特定领域的基础知识与能力；

3. 对于不同任务的高度适应性：

通过调整提示词，大语言模型对于不同任务具有很好的适应性，可快速适配不同种类的任务，极大提升了应用与落地的效率。

基于此，大语言模型为解决人机共驾问题提供了一种新的思路。

为了探索大语言模型在自动驾驶人机交互领域的应用，研究人员提出了「Co-Pilot」架构，用于实现乘客、大语言模型以及车辆之间的交互。

为了验证方案的可行性，研究人员设计了两个不同种类的任务对其进行测试，实验效果达到了预期。

Co-Pilot：架构与核心

Co-Pilot架构如下图所示：

把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架：完美把控乘客意图

Co-Pilot主体机构包含了以下模块：

1. 编码器：将必要的信息组成提示，通过专用API发送至大语言模型。

2. LLM：大语言模型，本工作使用ChatGPT（GPT3.5-turbo-0301）。

3. 解码器：将自然语言回应解析为指令或数据，用于车辆的交互与控制。

4. 保险机制：考虑到大语言模型作为概率模型的本质，现阶段难以杜绝其在回答中出错，故预留该保险机制防止存在明显错误的指令影响车辆运行。

5. 记忆机制：保存Co-Pilot完成任务所必须的数据及其他信息，作为输入的重要组成部分，可在工作过程中被实时更新。

Co-Pilot主要拥有两种工作流程：

1. 实现流程：Co-pilot依据不同任务完成一次工作周期的流程。

2. 调优流程：车辆专家依据不同任务调整记忆机制的前置优化流程。

记忆机制

本文按照人类认知心理学对大语言模型内部的知识储存进行模拟[2]，提出了记忆机制用来划分自动驾驶场景中可能涉及到的信息，旨在全面提升Co-Pilot信息利用效率。

把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架：完美把控乘客意图

专家主导的黑箱优化

该方法利用黑箱优化中在低维空间进行无梯度优化的思想，利用专家的主观标注来评估任务完成效果，从而更新记忆中的内容来增强提示词，使得LLM进行少样本学习。

把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架：完美把控乘客意图

仿真实验

为了验证Co-Pilot架构的可靠性，本文设计了两个任务，在以MATLAB/Simulink为基础的仿真平台中开展。

实验一：轨迹跟随控制器选择

在该实验中，假设有一辆自动控制的汽车在预设路径上行驶，研究人员给定Co-Pilot当前车辆状态、路段情况等信息，要求其选择最符合当前乘客意图（如保证速度、紧随轨迹、体验舒适）的运动控制器。

运动控制器为已有预设模块，分别为NMPC控制器、Stanley + Preview控制器、PID控制器。

把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架：完美把控乘客意图

赛道总览

把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架：完美把控乘客意图

实验一的Co-Pilot具体结构

在调优环节中，研究人员分别对语义记忆与情景记忆进行了更新，其中语义记忆仅能提供对控制器的种类（A1）或定性描述（A2），而情景记忆可以提供对控制器在过去相似场景下的具体表现（A3）。

赛道被分为五个区段，研究人员根据Co-Pilot是否在各区段选出了最符合当前乘客意图的控制器进行打分（每个区段最优1分，次优0.5分，最差0分，赛道总分最高为5分），分析不同记忆对于Co-Pilot表现的影响，研究人员在「精确跟踪」与「保持稳定」两种意图下分别测试，测试结果显示，A1仅取得3分，Co-Pilot在所有区段均选择了NMPC控制器。

由于此时提供的信息有限，其只能根据训练中积攒的常识「NMPC的控制效果很好」做出判断。A2取得了7.5分，而A3取得了8.5分，证明情景记忆在相似任务中对Co-Pilot的推理最有帮助，使其可结合人类意图给出合理的反应。

接着，研究人员使用了调优后的A3提示模式开展了更复杂的实验。在此实验中，五个区段的人类意图不再保持一致且引入了更口语化表达的新意图「刺激」。

实验结果如下图所示，Co-Pilot在每个区段都能选出最符合乘客意图的控制器(由于控制器在切换时受到上一区段的车辆状态影响，导致被选控制器的效果与预期可能存在细微差异)。

把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架：完美把控乘客意图