经过前面章节的漫长旅程,智能驾驶系统已经通过各种传感器“看清”了世界,并通过高精定位和地图精确地知道了“自己在哪”。现在,它需要回答一个关键问题:“接下来,我该怎么做?”
行为决策模块,就是车辆的**“驾驶策略师”** 或 “首席指挥官”。它不关心方向具体转多少度、油门踩多深,而是根据当前复杂的交通场景,做出高层的、宏观的行为指令。
行为决策模块的输入是:
它的输出是离散的行为指令,例如:
巡航跟车换道(左/右)超车汇入车流让行通过路口停车一个简单的例子:
跟车,但前车太慢。左侧车道空闲,且规则允许。为了达到导航目的,决策:执行向左换道以超车。”向左换道。这个指令会被传递给下一级的运动规划模块,由它去计算具体的换道路径。
这是最经典、最可解释、也是目前量产系统中应用最广泛的方法。
8.2.1 什么是有限状态机?
您可以把它想象成一个流程图或一本**“如果...那么...”的驾驶操作手册**。
巡航、跟车、换道、停车。8.2.2 FSM如何工作?
我们用一个高度简化的高速公路FSM为例:
初始状态: 巡航
跟车 状态。准备向右换道 状态。状态: 跟车
巡航 状态。准备向左换道 状态(以超车)。状态: 准备向左换道
执行换道 状态。跟车 状态。状态: 执行换道
巡航 状态。优势与局限:
更高级的决策必须考虑其他交通参与者未来的可能行为。基于预测的决策模型将预测模块的输出作为关键输入。
工作原理:
预测: 系统不仅感知到旁边车道有一辆车,还预测出它有两种可能轨迹:
决策: 决策器会同时考虑这两种可能性。
加速超车。略微减速,保持安全距离,观察其动向。这种方法让决策更加拟人化和防御性,能够更好地处理交互性强的复杂场景,比如无保护左转、匝道汇流等。
这是最具颠覆性的前沿方向。强化学习不像FSM那样需要人类教规则,它让AI智能体在与环境的交互中通过试错来自我学习最佳策略。
8.4.1 核心思想:
智能体: 即自动驾驶车辆。
环境: 模拟的交通场景。
状态: 环境的状态,如自车、他车的位置、速度等。
动作: 智能体做出的行为,如加速、减速、转向。
奖励: 环境根据智能体的动作好坏给出的分数。
8.4.2 学习过程:
AI在模拟器中数百万次地重复“开车”。一开始它的动作完全是随机的,会不断撞车、违章,被扣很多分。但通过复杂的神经网络,它会逐渐学到:“哦,原来在那个状态下,我选择‘减速让行’而不是‘强行通过’,最终得到的总分更高。” 经过海量训练后,它能学会非常精妙甚至超乎人类想象的驾驶策略。
优势与挑战:
优势: 潜力巨大,能处理极其复杂的交互场景,可能发现人类未曾想到的优化策略,是解决“长尾问题”的希望。
挑战:
本章小结
行为决策是智能驾驶的“战略”层面。我们介绍了三种主要技术路径:
在实际系统中,这三者常常混合使用。例如,用FSM保证基础的安全框架,在特定场景下引入预测模型进行优化,同时利用强化学习在仿真环境中不断验证和优化决策逻辑。