假设有两辆车在单行道上迎面相撞。

如果你在这种紧张、充满挑战的驾驶环境中开车,你可以与附近的各方协商。你可以把车开到路边,然后示意前面的司机通过窄车道。通过互动,你可以想出一些策略来保证每个人的安全并到达目的地。

一辆自驾车有一个更强硬的挑战,必须以某种方式了解附近的司机,他们愿意玩得很好。

开发的新算法可以通过拥挤的狭窄的街道上的艰难流量来指导自主车辆。

该算法由卡内基梅隆大学的研究人员构建ARGO AI自治车辆研究中心它通过建模不同程度的司机合作程度来做出决策——一个司机靠边停车让另一个司机通过的可能性。

在“多智能体强化学习”(Multi-Agent Reinforcement Learning,简称MARL)中,由研究员克里斯托弗·Killing领导的研究小组让自动驾驶汽车展现出类似人类的行为,包括防御性驾驶和解释其他智能体的行为——目前为止是在模拟中。

该算法尚未在现实​​世界中的车辆中使用,但由于模型的基于奖励系统,结果是有前途的。

“我们鼓励安全互动,”前计算机科学学院访问研究学者Killing说机器人研究所现在是慕尼黑工业大学自主空中系统实验室的一部分。

在一个简短的问答金宝搏官网下面,Christoph解释了更多关于他的团队的激励模式如何导航艰难的交通情况,没有公路的官方规则。

金宝搏官网技术简介:当你面对一个需要合作性和进攻性的挑战时,你会把你的模式描述成更具合作性还是更具进攻性?

Christoph杀戮:与任何驾驶场景一样,自动车辆应该首先放置安全并遵循所有流量规则。然而,这是考虑的场景的美丽和挑战 - 在这种情况下,没有协调交通规则(例如,与4路停止交叉路口相比)。两辆车辆的平等车辆必须基本上谈判谁第一次和谁等待。

如果两辆车纯粹都专注于安全性,它们都将牵引。我们在研究中面临的关键挑战是:我们如何制作一辆车上的滚动,一个车辆 - 不要使两个车辆拉过来,而不是让两个车辆去,当时每个都在没有任何协调的情况下做出自己的决定。

我们鼓励安全互动;速度上的崩溃比超时更糟糕——但超时也会导致一个小的惩罚,以激励代理学习交互和相互超越。

金宝搏官网:模型用于执行驱动器的主要参数是什么?算法基于其决定的算法是什么标准?

Christoph杀死:我们的算法能感知一辆真正的汽车上有什么。我们测量了汽车前部的距离和相对速度(见图2在这里的报告).值得注意的是,与相关工作相比,我们使用的不是鸟瞰场景,而是以自我为中心的视角。这让它变得有点棘手,因为我们现在有了盲点。这一观察还被进一步的参数所强化,比如上面提到的协作性,以告诉代理行为的侵略性,以及当前的转向角度和油门位置(在这种情况下,你自己驾驶时也会知道)。

金宝搏官网:算法纠正的速度仍然具有挑战性?

Christoph杀死:有两个主要挑战:过于侵略性的搭配和过于被动的配对。(比较此处的可视化。)特别是,我们的政策大部分时间都能够协商情景。然而,人类的乘客可能对他们的汽车做得非常不满意这里显示的一些演动器

金宝搏官网:算法清楚的是,对立的驾驶员是一个积极的“坏”司机的算法做了什么?或过于“合作”司机?

Christoph杀死我们通过给每辆车指定一个合作值来测试我们的驾驶政策,告诉它的行为有多咄咄逼人。每个人只知道自己的合作,而不知道对方的车。这些合作性价值以一种非常直接的方式转化为驾驶行为:一个不合作的司机只对自己的进展感兴趣。高度合作的司机不介意哪辆车先进步,只要有人去。这些值在整个交互过程中是固定的。

(我们不认为“失去脾气暴躁。”我不会在这里深深潜水,但让我们在“以进行数学原因”。)

金宝搏官网:模型的一部分是否需要一种对相反驱动程序的“解读”?

Christoph杀死:关于“阅读”的一个词:在机器人技术中,我们区分世界的状态(即地球现在的状态)和观察。我们的车辆没有内存模块。那么,我们如何处理我们现在没有看到的事情呢?

比方说,你正在和一个叫Zoom的人通话。可以这么说,你感知到了地球的部分观测。另一方从他们的相机视野外拿起一个咖啡杯,喝了一小口,然后把它放回他们的相机视野外。如果你只考虑到杯子放下后你最后的观察,他们问你喝什么,你根本不知道(因为没有记忆)。然而,如果你将过去几秒内的几次观察结果叠加在一起(我们称之为“串联”),你就可以推断出世界的某些状态,因为你会看到杯子在几帧中被移动。根据他们移动的速度,你甚至可以知道他们的情绪。

同样地,在我们的场景中,每辆车只知道其他的agent,这是基于它可以从观察空间中观察到的(如图2所示。在纸张中).内部状态(例如,另一辆车的合作价值)是未知的。我们将对每一辆车的部分观察联系起来,让他们对另一辆车的合作程度有一个潜在的信念。我们不用人工来做这个,但是我们有深度神经网络,也就是人工智能,来完成这个任务。这个神经网络还必须了解你的问题的答案,即在它注意到某种攻击性或过度合作行为后,该怎么做。

金宝搏官网:模型如何注意到“攻击性”或“合作性”行为,并做出相应的反应?

Christoph杀死:例如,可能的侵略性代理可能会进入这个方案的这个瓶颈,基本上强迫其他代理人等待。一个过于合作的代理人 - 一旦瓶颈的全部范围都可以通过其传感器察觉到 - 减慢并等待。在这里,我们的策略训练,立即选择补充行动:检测到缓慢和转移,反之亦然。

金宝搏官网:这项研究的下一步是什么?

Christoph杀死:很多事情:主要有三点:第一,目前的工作是自动驾驶汽车,面对的只是自动驾驶汽车。我们需要将这一技术扩展到无人驾驶汽车上,看看我们与这些人合作得如何。第二,在我们的工作车辆只能前进,我们不允许倒车。然而,这可以帮助我们从困境中恢复过来。第三,我们目前的工作只是模拟。将其转化为现实世界的解决方案是我们在某些时候需要采取的主要步骤。

你怎么认为?分享您的问题和评论。