地平线VAD又又又上新了！VADv2比v1强在哪里？一起来听

原视频内容展开视频

大家晚上好，我是来自华中科技大学VisionLab的博士生蒋博，也是地面线的算法实习生。

今天我带来的分享是关于端到端自动驾驶的一些研究工作，重点会介绍我们最近的基于实验表征和概率规划的端到端自动驾驶方案VDVR。

端到端自动驾驶的定义，以及我们在此前的一些工作，包括端到端在线建图的MAPTR V1和V2，还有VED V1的工作。

介绍VED V2工作的一些细节。

大家晚上好，我是来自华中科技大学VisionLab的博士生蒋博，同时也是地面线的算法实习生。今天我带来的分享是我们关于端到端自动驾驶方面的一些研究工作，重点会介绍一下我们最近的基于实验表征和概率规划的端到端自动驾驶方案 VDVR，这是我这边的一个分享主题。

首先，我将给大家介绍一下端到端这个任务的定义，然后回顾我们此前的一些工作，包括端到端在线建图的 MAPTR V1 和 V2，以及 VED V1 的工作，最后详细讲解一些 VED V2 的工作细节。

OK，首先是关于端到端自动驾驶。其实，端到端自动驾驶这个概念并不是最近才提出的。只不过因为最近在业界像特斯拉、康马AI的OpenPilot都给予端到端一些落地的应用，像特斯拉的 FSD V12 已经展现出非常不错的效果，所以现在业界会比较关注端到端这个方向。

那么，端到端的具体定义是什么呢？其实是从感知的输入，然后直接通过一个完全可训练的网络，去端到端地输出到最后的轨迹规划或者是控制信号。相较于此前的分模块化方案，端到端最大的区别在于其整个网络是数据驱动的，没有加入太多人类设计的规则。这样可以从驾驶员的驾驶数据中学习到更拟人的驾驶行为模式。

随着自动驾驶车辆的大规模落地部署，我们能够采集到更多专业司机的驾驶数据，这使得这种端到端方案越来越可行。此外，相比之前的分阶段方案，端到端方案没有信息损失，这个特性使得它在学习过程中能够自我修复，相当于用数据去反映真实的驾驶行为模式。

还有一个优点是，端到端方案不需要人工设计的启发式算法，这意味着它的性能上限更高。右侧这张图是一个比较早期，2016年提出的端到端策略。输入的是前视图、左图和右图，经过CNN处理后直接输出方向盘和驾驶指令，其基本形式就是将感知去掉，成为一个完全的黑箱模型。

那么，为什么最近端到端才会被广泛提及和大规模实施呢？我认为这与计算能力的提升以及我们能获取的数据量越来越多密切相关，使得端到端变得越发可行。

这是端到端的背景，接下来我将介绍我们在端到端方面的一些工作。端到端这个词不仅可用于规划和控制，我们最初在端到端的应用是在在线建图 Mapster V1。之前更多用的是高精度图（HD Map），然而这种高清图的标注成本非常高，这个成本不仅体现在财力上，还影响到自动驾驶系统在真实应用中的范围。为了真正实现覆盖全场景的端到端驾驶方案，在线地图预测必不可少。

具体到 Mapster V1 方案，前期方案采用的是灾难镜图。我们输入的是环式图像，最终预测的是关联化的道路地图，包括人行道、车道分隔线和道路边界，这些都是一系列的向量序列。以前的方案将车道分隔线视为一段有向线段，从起点到终点，例如一个包含20个点的条段。实际上，这些道路线是无序的，路径不该是固定的。

例如，人行道这里在输入时表现得像是有方向的。但事实上，它可以从任何一个点出发往左或往右走，显示出天然的无序性。因此，Mapster V1 针对这一点，通过一对一匹配的方式，同时考虑到地图线的无序性，利用类似于 Deter 的做法实现了极好的检测性能。

Mapster V1 主要建模的是地图的物理层特性，包括道路分割线等。我们随后考虑是否能建模逻辑层面的道路线，即车道的中心线。这个是一个具有顶部结构的要素。

在这里，图中展示了车道网络的结构。以往方案主要有两种：一种是基于像素的预测，用像素图像预测道路线，再经过后处理转换为道路图；另一种是为了预测道路图特意将图在分叉入口处切断去预测每条道路线的向量和连接关系，这种方案比较复杂，且线路本身不该被切断，应该是一条完整的线。

因此，我们决定采用一种 Pathway Modeling 的建模方式，直接将其编码成三条不同的道路线，以最佳保留每条车道的原始结构和信息。这是 Langab 的工作。最近它还中选了 ECCV 204，这是逻辑层面的道路建模。

在 MatterVR 框架中，我们结合了物理层和逻辑层的建模，并进行了一系列优化，使得 MatterVR 现在成为一个性能较好的在线建图方案。

考虑到在线地图建模，在之前 NewSense 和 Argoverse 中的一些方案中，预测的范围较小，这也受到数据集的限制。因此，我们在地平线中使用了比 Nuisance 更高一个级别的数据做验证。在端到端方案中，将环境信息在更高层次进行建模确实需要更多的数据，以达到更好的效果。

在此，我们使用的数据感知范围达到了 120米，在如此大的范围内，依然保持了非常准确的地图建模效果。这种方案在面对复杂环境时，表现出相较于传统基于启发式的分割方案更好的整体性能，随着数据量增加，其成果更加显著。

接下来，我们自然考虑将端到端感知网络拓展到轨迹预测这一任务上。此前，轨迹预测任务通常依赖于高清地图或稀疏图。那么如何在仅使用在线预测地图的情况下，利用地图信息提升对其他目标车辆轨迹预测的效果，成为了一个关键的问题。

在 PIP 方案中，我们将 Mapster 方案的在线建图引入轨迹预测任务。我们采用 BVformer 方法进行其他对象的预测，提取他车的 Agent Query。因为我们关注多模态预测，提出了模态的 Query，并与前面的 Agent Query 融合，最终形成轨迹预测的 Motion Query。

我们重点在于 Motion Query 和地图信息的交互策略设计，包括做以 Agent 为中心的地图元素政策化、过滤，筛选出需交互的地图元素。这里采用了 MapToQuery 将其进一步与 VectorNet 编码，最终与前面的 Motion Query 进行 Attention 交互，输出轨迹预测结果。通过这个方案，我们验证在线预测地图能有效提升轨迹预测的方法，甚至可以接近于高清地图方案，这为后续的研究打下基础。

在在线建图和在线轨迹预测的基础上，我们又开始设计一个端到端使用量化场景表征的规划方案。这里，Vectorized Motion Transformer 是用 PIP 的方案，Map Transformer 则使用了 Map 方案。最后加入了一个 Planning Transformer，其方法是提出了随机数值化的 Eagle Query，分别与 Motion Query、Agent Query 和 Map Query 交互。

通过 Eagle Query 提取驾驶场景中的动态和静态信息。这里用的都是 query 之间的影视特征交互，同时加入驾驶导航信息和当前车的状态信息，最终预测自车未来的决策轨迹。

在影视特征之外，我们还将预测的他车轨迹和地图信息结合使用，以约束形式对预测的车轨迹施加惩罚。这些约束包括自车与他车轨迹是否相撞、是否越过道路边界，以及车头方向是否偏离车道方向等。

通过这些约束，相当于将常见的驾驶线索作为额外监督信息用以训练整个网络，最后实验结果表明这些约束确实有效。

以上是 VDVR V1 的方案，完成 VDVR V1 后自然而然会想到一些问题。驾驶角色规划中存在不确定性，例如图中两种场景：自车跟随慢车或自车尝试超车。这种不确定性源于环境与司机的驾驶习惯等，因此难以建模。

先前的方案，包括 VDV1 等，主要采用判决式建模，输出确定性轨迹，存在风险和局限。比如当司机在相同的场景下，选择跟车或变道超车，方式的追求是最小化 L2误差，因此产生了不理想的轨迹。

若使用多模态概率建模，能够根据决策集中的不同动作出现的频率，决定在特定场景下选择哪种动作，从而避免输出次优的轨迹。

VDV2 就是在此基础上提出的，最大的特点是引入了 planning vocabulary。这里 Action Space 由所有可行的角色空间构成，VDV2 中将其理算为 planning vocabulary，里面每个 Action 对应一条轨迹，再进一步编码为 planning token，与环境 token 交互，判断每个 Action 的可行概率。

此外，我们也会加入一些场景约束，要在后续具体说明。在此，我们探讨感知模型是否真的需要提升，因为绝大多数情况可基于白名单对象做价值判断，只有少部分情况涉及白名单外的问题。因此，在数据量不足的情况下，使用白名单策略是更高效的。

驾驶信息和图像信息本身稀疏，因此用于感知模型提取信息是一个抽象过程，而不是将所有信息直接输入决策层。这里提到的 Vectorized Token 和 Rasterized Token 本质上是互补的，前者关注白名单外对象的建模能力。

在此，我也提到一个大部分人关心的问题：为何规划问题要采用多模态思路，而非判决式。这里的答案是由于数据的影响，尤其在 VDVR 案例中，规划 vocabulary 数量大，若要让概率分布建模真实，需保证训练集中每个动作得到充分学习。

当数据量到达一个合理范围内，规划 vocabulary 的设计就十分重要。逐步提升其数量，表明 action space 模型更加充分。因此，基于多样性与动态性加强，势必提升建模效果。

最后，对比我们与 JPT 的不同，JPT 在语言建模上，在我们动作空间和环境信息的交互层次上是纯粹不同的。针对 JPT 的文献，我们提取量化的词汇（vocabulary）后，收集到的大数据来自不同场景。

此后，我们在自动驾驶与机器人建模间的边界也很清楚，考虑到不同领域的需求与实现上存在的差异，关系到速度与可靠性。

未来方向 或许围绕端到端模型如何处理更多的 corner cases，通过引入强化学习策略结合真实探究，弥补数据稀缺和驾驶安全隐患，逐步扩展模型能力。

谢谢大家的关注，如果有兴趣的话，欢迎关注我们的邮件或微信进行进一步的探讨。

地平线VAD又又又上新了！VADv2比v1强在哪里？一起来听

相关推荐

"5 Simple Productivity Tools for ADHD: Transform Your Focus System"

绝大多数普通人什么都不具备，他是怎么翻身的？m

短视频爆火，和文案关系真不大。

我用3000块的成本和4个月的时间完成了一次“阶级跨越” | Vlog48

10 Apps That Turn Your Mobile into a Hacking Supercomputer!

2年从0到16间店，怎么做到呢？ 为什么大多数连锁店卡在第三间店？- 连锁教练 Stay Consultancy 创办人 Jay Wong

2年从0到16间店，怎么做到呢？为什么大多数连锁店卡在第三间店？- 连锁教练 Stay Consultancy 创办人 Jay Wong