资讯详情

特斯拉是如何训练自动驾驶的?

来源:锦缎

如果机器人有大脑,会是什么样子?

在科幻电影《机械姬》中,蓝皮书是世界上最大的搜索引擎公司CEO 纳森向观众展示了他发明的机器人大脑,并留下了这样一句话:人们认为搜索引擎是人们思考的东西,但它实际上是人们思考的方式。

这部电影 2015 2000年,它被称为人工智能爱好者必看的电影之一,并获得了许多国际电影奖项,包括奥斯卡金像奖。但在众多奖项中,个人冠军是最佳女配角·维坎德也是电影中智能机器人艾娃的演员。

艾娃是纳森给她取的名字。为了创造一个可以独立思考的人工智能,纳森利用自己的搜索引擎蓝皮书算法来构建艾娃大脑的思维,从而学习人类的思维方式。

巧合的是,如果你想让机器有人类思维,你也可以看到特斯拉创造的自动驾驶 AI 上。2019 在特斯拉自动驾驶日,安德鲁·卡帕西(Andrej Karpathy,特斯拉 AI 总负责人)明确表示,特斯拉自动驾驶是在模仿人类驾驶,因为目前的交通系统是基于人类视觉和认知系统设计的。

因此,特斯拉开发了人工神经网络,并利用大量有效的驾驶数据进行训练。在这个过程中,它不断改进和迭代视觉算法,最终在今年年中取消了毫米波雷达 Dojo 长期被批评为辅助驾驶的特斯拉,离真正的自动驾驶又近了一步。

作为一名优秀的老司机,从学会开车到比人类更好地开车,是特斯拉自动驾驶不断优化的底层逻辑。

神经网络云司机

纯视觉自动驾驶方案是特斯拉的独特技能,但需要对计算机视觉进行深度训练。

计算机视觉是一门研究机器如何看的科学。当人类看到图片时,他们可以清楚地区分图片中的事物,如美丽的风景照片或狗的照片。然而,计算机看到像素(pixel),像素是由图像的小方形组成的,它们都有明确的位置和相应的颜色值。计算机记住的是这堆数字字符,而不是特定的东西。

如果你想让计算机像人类一样快速准确地识别图片中的东西,机器也有人工大脑来模拟图像信息处理过程,分为输入层、隐藏层、输出层,有许多人工神经元,可以被视为锥体细胞和中间神经元。

整个训练过程也可以类似于儿童的图像识别,通过输入、比较、纠正,完成机器图像识别。通常在训练初期,人工神经网络识别结果的准确性很低,输出结果可能与实际值相似 10%;为了提高准确性,有必要将两个误差从输出层反向传播到输入层,并在反向传播中纠正神经网络隐藏层的参数值。经过数百万次训练,误差将逐渐收敛,直到输入和输出端匹配度达到 99%。

以上过程是对特斯拉自动驾驶的理解 AI 关键是特斯拉开发的人工神经网络专注于驾驶领域,成为一名全职云司机。对它来说,最好的学习材料是驾驶数据,来自现实世界的大量、多样化的驾驶训练数据集(training dataset)是自动驾驶 AI 百宝书可以处理各种路况和交通问题。

在影子模式的支持下,全球数百万特斯拉车队的驾驶数据成为云中老司机提高驾驶能力的营养素。今天,特斯拉 Autopilot 各种动静目标、道路标志、交通符号的语义识别可以瞬间完成,反应速度甚至比人脑条件反射更快。

除日常驾驶场景外,AI 司机还需要处理一些罕见的长尾情况(Corner cases)。在 2020 年 Matroid 在机器学习会议上,卡帕西使用交通指标 STOP 为例,讲解 Autopilot 处理这些长尾情况的具体方法。

在日常驾驶过程中,车辆总是经过各种各样的驾驶 STOP 最正常的指标是站在路边或路上,红底白字 STOP 标志,但现实生活中总会出现一些意想不到的情况。司机偶尔会遇到一些奇怪的指标,需要结合具体背景来理解意义,包括不限于以下内容:

无效 STOP 指标,比如被某人拿在手里,没有意义;下面附有文字说明。 STOP 比如不限制右行;STOP 树枝和建筑物阻挡的字母指标…这些都是频率低但数不胜数的情况。

在上述情况下,人类司机很容易识别出大多数情况下的‘STOP并迅速做出行动反应。但是对于计算机来说,情况变得复杂起来,毕竟它看不到具体的STOP,但一堆毫无意义的数字代码,如果现有的训练数据集中,如上述一些奇怪和罕见的指标,自动驾驶神经网络无法处理。

这部分罕见的长尾数据通常是无穷无尽的,但它必须在尽可能短的时间内学会处理。如果一切都是手动操作的,它无疑需要巨大的时间成本和资源。尽管在 8 月 20 日 AI 在会议上,卡帕西透露,特斯拉标记团队的规模已经达到了1000人的水平,但面对大量的驾驶数据,1000人仍然是杯水车薪,特斯拉内部开发了数据离线自动标记(Data Auto Labeling)数据引擎自动训练框架(Data Engine)’。

首先,在了解了这些长尾情况后,特斯拉神经网络团队将首先编写一个样本数据集,并创建一个局部小型神经网络来学习和训练(与其他神经网络并行) OTA 特斯拉车辆部署在全球英语地区。

然后使用车辆影子模式,如果遇到实际驾驶情况和自动驾驶 AI 如果决策不一致,这部分驾驶数据将自动上传到特斯拉的后台数据引擎。自动标记后,将其重新纳入现有数据培训集中,继续训练原始神经网络,直到掌握新数据。

就这样,在大量训练数据的喂养下,神经网络变得见多识广、更聪明,能够识别不同条件下的情况 STOP 逐识,精度逐渐从 40% 提升至 99%,完成单一任务学习。

然而,这只是一个学习静态信号的无数的静态和动态信号出现在汽车驾驶过程中,如路边树木、路障、电线杆、动态行人、车辆等,这些信号被摄像机捕获到神经网络训练和学习。特斯拉的自动驾驶神经网络已经发展出了九个主要的神经(HydraNet)和 48 个神经网络的识别超过 1000 种目标。

然而,只允许自动驾驶 AI 学开车还不够,还得让它像人类老司机一样轻驾熟悉,安全稳定。

摆脱拐杖,Autopilot 初长成

任何有经验的司机都可以很容易地判断前方车辆与我们之间的距离,以确保驾驶安全。

但对于传感器来说,要判断物体的距离,我们必须了解物体的深度,否则在他们眼中,距离我们 10 米和 5 两辆完全车完全一样,会被认为是一大一小的关系。

在这方面,一些汽车制造商选择激光雷达路线来探测深度,而特斯拉选择纯视觉算法来模仿人类视觉来感知深度,但特斯拉首先创建了毫米波雷达 直到今年 5 月,才正式官宣,拿掉毫米波雷达,上线纯视觉版本 Autopilot。

这件事一出来,社会各界就一片哗然。很多人不明白特斯拉为什么要拿掉单价。 300 高性价比的雷达,可以为驾驶安全增加保障。众所周知,在特斯拉早期的多传感器集成路线中,毫米波雷达的存在就像一辆儿童步行车,只是帮助神经网络学习和训练(annotate)。

在 2019 在自动驾驶新闻发布会上,卡帕西介绍了毫米波雷达,他说:让神经网络学习预测深度,最好的方法是通过深度标记数据集训练,但与人工标记深度相比,毫米波雷达反馈深度数据准确性更高,因此,引入毫米波雷达,本质是训练和提高神经网络的深度预测。

值得一提的是,在他解释的背景幻灯片右下角,带有毫米波雷达的自动驾驶算法被清楚地标记为‘Semi-Automonous Self Driving翻译是,当时的特斯拉显然是半自动驾驶 Autopilot 只有半成品。

直到特斯拉视觉算法在预测物体深度、速度和加速度方面达到可替代毫米波雷达的水平,特斯拉视觉算法才真正独立。

在 2021 年 6 月 CVPR 在会议上,卡帕西表示,毫米波雷达收集的数据中存在间歇性翻车,甚至出现了误判。他举了三个具体的例子,前方车辆刹车,桥下前方车辆的速度,以及对路边静止卡车的判断。

情况一:前方车辆急刹,毫米波雷达短时间内出现 6 目标车二次丢失的情况下,前车的位置、速度和加速度归零。

情况二:当汽车通过桥下时,雷达将静态物体视为静态物体;视觉传感计算了车辆的速度和位移,导致数据集成曲线传递了前车减速制动的错误信息。

情况三:一辆白色卡车停在高速公路旁,纯视觉算法距离目标车 180m 白色卡车被发现并做出预测,但整合算法直到 110m 反馈发生在哪里,足足延迟 5 秒。

在上述情况下,纯视觉算法输出稳定,明显优于雷达 视觉融合算法,准确跟踪前车行驶状态,制作深度、速度、加速度等数据。

不仅如此,纯视觉算法还可以在雾、烟、尘等环境中保持前方车辆的速度和距离测量,所以毫米波雷达也就不足为奇了。根据特斯拉 AI Day 根据最新发布的信息,特斯拉每周可以获得1万个人在恶劣环境下驾驶的短视频,包括大雨、大雪、大雾、夜晚、强光等。通过学习和训练,神经网络还可以在没有毫米波雷达的情况下准确感知前方车辆的距离。

可以说,特斯拉宣布取消毫米波雷达的信心是对其成熟的纯视觉算法的信心,特斯拉的纯视觉算法迭代和改进显著加速,没有监督自学的支持。

今年 7 月 10 日,特斯拉纯视觉版本的 FSD 内测在美国正式启动,2万 受邀车主通过 OTA 方式升级到 FSD Beta V9.0 他们大多是特斯拉的粉丝和中小型粉丝 KOL,Youtube 博主 Chunk Cook(以下简称 CC)就是其中之一,他对工程和航天也略知一二。

系统更新一结束,CC 开启新版 FSD 道路测试,并将测试视频上传到油管。在视频中,他来到了车辆多、速度快的地方 T 路口转弯试验结果显示,7 次中只有 1 次,FSD 成功完成自动驾驶需要人工接管方向盘。

但很快,随之而来 7 月底 FS 推送新版本 V9.1,CC 发现升级后的 FSD 表现出乎他的意料。他又在相同道路进行了七次自动驾驶测试,结果显示,7 次中 4 次都较为顺利完成自动驾驶,但在转弯速度上有些‘磨蹭’,没有展现老司机应有的果断,但在综合得分上,新版本 Autopilot 优于旧版本。

8 月 16 日,特斯拉 FSD 又升级至新版本 V9.2,CC 同样抢先测试并上传视频,还是一个路段,不过测试时间改为夜间,他公开表示,此次最明显的改进是 Autopilot 的加速表现,在转弯时能像人类驾驶员一样果断加速。

前后一个月的时间,纯视觉 Autopilot 在同一条道路的表现进步迅速,身后正是人工神经网络强悍自学能力的体现。马斯克表示,FSD beta V9.3、9.4 都已在筹备中,会根据车主使用情况不断进行细节优化,改善用户体验,并预备在 V10 版本做出现重大的变化。

Dojo 上马,模拟极限

需要注意的是,大家惊艳特斯拉纯视觉 Autopilot 各种老司机操作时,也不能忘记这些路测大部分发生在北美地区,而在非英语地区,比如人口稠密的亚洲地区,其城市道路交通复杂度与地广人稀的北美迥异,而如何让神经网络学会应对各种路况交通,更值得思考。

收集实地数据是方法之一,但前提是你有大量车队在该地区驾驶,另一种解决方法则是对自动驾驶进行仿真测试。仿真,简单讲就是利用现实数据,将真实世界的实时动态景象,在计算机系统实现重新构建和重现。

除了能模拟不同城市的交通路况,而且仿真测试还能模拟一些极限场景,比如各种突发交通事件或者极为罕见的交通路况。在 AI DAY 上,特斯拉工程师举了具体例子,包括有行人在高速路上奔跑、行人数量庞大、或者非常狭窄的驾驶道路。

这些案例往往非常极端,在日常驾驶场景中出现的概率也微乎其微,但正因为此,通过仿真来训练神经网络才有真正价值,而只有通过训练,神经网络才能学会正确应对。

为了能真正起到训练作用,这些仿真测试必须充分还原现实场景,包括道路上各种行人、车辆、绿化林、路障、信号灯等等,几乎包含你在路上见到的所有交通要素。目前特斯拉已创建了 3.71 亿张车内网络训练的图像,以及 4.8 亿个标签,并且数据规模还在快速扩张中。

要知道,仿真测试可达到的逼真程度,与计算机可提供的数据处理能力成正比。特斯拉 AI 的仿真越强,对硬件算力、读写速度的要求越高。

马斯克曾在 2020WAIC 大会上表示,当下计算机视觉已经超越人类专家水平,但要保证计算机视觉实现的关键是算力的大小,为此特斯拉则准备好了顶级超算 Dojo,保证一切运算都能高效、准确完成。

在 AI day 上,超算 Dojo 揭开了庐山真面目,内置了 3000 颗 Dojo 1 芯片,并组装成峰值算力达到 1.1EFLOPS 的 ExaPOD,超越目前世界上最快的超算日本富岳,就成了全球第一。在发布会后,马斯克在推特上回复网友提问时表示,ExaPOD 的运算能力足以模拟人脑。

现阶段,Dojo 这台性能猛兽专注于训练特斯拉自动驾驶神经网络,有了它,神经网络的学习潜力一下子变得深不可测,而至此,特斯拉也集齐自动驾驶三要素,数据、算法、算力,为推进 L5 级别自动驾驶做好软硬件准备。

不过要想快进至自动驾驶终局,特斯拉还有很长的路要走,包括来自法律和道德层面的考验。

标签: 传感器输出5v10v

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台