EN
【原创研究】特斯拉自动驾驶背后的坚实脚印
来源: 苏泊尔产业资本-张家祺日期:2020-09-25浏览量:612

开篇先请大家看一段Tesla在2010年发布的视频的部分截图。





系统识别道路转向标志,并标注LA IA RA,代表不同方向



系统识别路标(STOP)并指示车辆是否应该停止前行



系统识别路面湿滑程度(WET ROAD)并通过数值提示距离及程度



系统识别指示灯并标注意义及位置



系统标注车辆位置并在无漆线的情况下给予引导



自动驾驶真的远比在自动驾驶仪上看到的多得多。其实从上面的视频截图也可以直观的感受到视觉相比雷达的多样性与重要性。



01
自动驾驶派系之争



素有“钢铁侠”之称的Elon Musk(以下简称“马斯克”)更是对计算机视觉在自动驾驶领域的应用情有独钟,马斯克曾多次在公开场合diss激光雷达。



事实上在“自动驾驶领域是否应该使用激光雷达”这一问题上,“激光雷达派”与“计算机视觉派”一直争论不休。“激光雷达派”认为视觉算法缺乏精度,而“计算机视觉派”认为激光雷达成本昂贵且缺乏技术能力。



在自动驾驶的实际应用领域,各大车企也呈现了截然不同的发展方向,1)以Tesla、理想领衔的“摄像头派”,2)以Waymo、奥迪领衔的“激光雷达派”,3)以造车新势力及BB领衔的“毫米波雷达派”。




从实际应用的角度看,Tesla的表现相对更好:




实际上我们不难理解马斯克对激光雷达的“抵触”,毕竟Tesla是车企,而非提供自动驾驶解决方案的公司。在未来一段时间,从成本、安全、美观、技术等角度看,多数车企的量产车型都不会把激光雷达纳入考虑范畴。且比较之下,马斯克的计算机视觉解决方案确实取得了不错的效果。



从仿生的角度也是如此,人在驾驶过程中并不能像激光雷达一样精准的探测到百米之外的情况,将误差缩小到几毫米,而是随着物理距离的接近不断的进行动态调整,形成一个相对准确的判断。同时,图形带来的数据维度(形状、颜色等)远比激光雷达更为丰富,且随着距离的放大,激光雷达的成像意义将更为模糊,而多线激光雷达的成本如此昂贵(正如Andrej Karpathy所说“某种意义上,激光雷达是一个捷径。它回避了对自动驾驶非常重要的视觉识别基本问题,给人一种虚假的技术进步了的感觉。和激光雷达相比,Tesla更加依赖计算机视觉,并将收到的视觉信息进行 3D 渲染,涵盖视频输入到深度感知。”)。





另一方面,计算机视觉想要在L3-L5上摆脱激光雷达,需持续研究和验证纯视觉技术方案替代激光雷达的可行性。从学界研究成果看,Cornell Universuty的Yan Wang及Wei-Lun Chao发表的《Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving》表示:“3D目标检测是自动驾驶的重要任务,目前基于单目摄像机或立体摄像机图像数据的方法能够达到的准确率低于激光雷达,这种差距通常被归因于基于图像的深度估计技术缺陷。但是本文研究表明,数据表示(而非其质量)是造成这种差距的主要原因。研究者将卷积神经网络的内部工作原理考虑在内,模拟激光雷达信号,在流行的KITTI基准上,将30m范围内的目标检测准确率从当前最佳的22%提高到至74%,大大降低计算机视觉与激光雷达准确性的差距”。




虽然马斯克时常打脸,在一段时间之后站出来反驳以前的观点,但或许这次他对于计算机视觉在自动驾驶领域的偏执是对的。



02
Tesla在Autopilot的视觉布局



那Tesla目前又是如何实现的?Tesla采用“8+1”仿生视觉配置,装配8颗摄像头,1颗毫米波雷达。环绕车身共配有8个摄像头,其中包含一个三目前置摄像头,组合视野范围达360度,对周围环境的监测距离最远可达250米(一颗前视三目摄像头,包括前视宽视野、主视野、窄视摄像头各一颗安装于挡风玻璃后;两颗侧后视摄像头,装在翼子板上位置靠前;两颗侧前视摄像头,装在B柱,位置在侧后视的安装位置之后1m;一颗后视摄像头,安装于车尾箱牌照框上方)。Tesla所配置的一颗前置毫米波雷达(位于前保险杠靠下方的位置)可视范围达160m(辅助配有5颗车身环绕雷达、12颗超声波雷达)。




Tesla的8个摄像头可以覆盖周围所有区域的车辆,没有盲点。




8个摄像头与其他雷达实现传感器融合,可以有效地定位和识别障碍物(雷达是非常好的互补传感器,可以直接估计速度)。



摄像头所采集的视觉图像维度更为丰富,因此在车辆、车道线、人行横道、车辆、行人等环境变量间,Tesla需要进行大量运算,需同时运行至少50个神经网络,因此对算法和算力也提出了巨大的要求。




Tesla使用HydraNets架构,进行主干共享,类似于迁移学习,拥有共同模块和为特定的相关任务训练的具体模块,HydraNets的主干用所有的目标来训练,具体内容用于训练具体的任务,有利于提高推理和训练速度。同时叠加多摄的深度估计及鸟瞰图,在立体视觉和传感器融合的基础上,Tesla可摆脱激光雷达。





同时Tesla建立循环任务,让多个神经网络分开运行,另一个神经网络建立连接。每个摄像头均通过单一的神经网络处理,并将所有信息组合成中间神经网络。其中每一个任务只需庞大网络的一小部分,如目标检测只需要前置摄像头及前面的主干和第二个摄像头。



而这一整套体系的背后与“钢铁侠”在早年的硬科技布局息息相关。



03
Tesla芯片的前瞻布局



在Autopilot 1.0时代,ADAS市场热捧的Mobileye Eye Q3的自动驾驶芯片受到众多车企欢迎,也同样被Tesla所采纳。但Mobileye采用“芯片+深度学习算法”的软硬一体方案,与Tesla不断升级迭代的理念不符。



2016年1月,芯片设计大神Jim Keller加入Tesla出任Autopilot总裁,并邀请了Peter Bannon(苹果的顶尖芯片研发人才)等多位芯片架构师加入,Tesla踏上自研芯片之路。期间马斯卡对于NVIDIA的Drive PX2表示认可,但算力仍无法满足Tesla的全自动驾驶需要,加之高功耗,进一步坚定了其芯片自研之路。



2018Q3的财报电话会上, Andrej Karpathy(AI与自动驾驶视觉部门主管)表示Tesla已为Autopilot开发了更稠密的数神经网络,但缺乏足够的芯片计算资源,而次年4月,Tesla的自研芯片重磅上市。





注:华为MDC 600算力高达352 TOPS,最高可支持L4+级别自动驾驶,但受美国政策掣肘;英伟达Pegasus算力320 TOPS,但功耗高达500W,最高可支持L4+级别自动驾驶;Tesla FSD算力144 TOPS,功耗仅72W,支持L4+级别自动驾驶,强力延长续航能力;NVIDIA Xavier算力30 TOPS,功耗仅30W,最高可支持L3级别自动驾驶;Intel Mobileye Q4及Q5最高支持L2+级别辅助驾驶。



一直以来,在关键部位上Tesla倾向于“能自己动手就不向别人采购”。Tesla对软硬两方面的绝对把控,推动其技术不断迭代:更新优质传感器、自研芯片、OTA 升级软件,不断完善、开拓功能,推动性能提升、成本下降。



04
Tesla商业模式下的数据红利



Andrej Karpathy曾在演讲中表示,将神经网络部署在真实世界中训练的重要性。Tesla的每一位顾客(driver)其实都参与了神经网络的训练,不断向Tesla的自动驾驶系统投入新数据。而神经网络训练中,数据质量比规模更重要,Tesla的数据集或许是全球最有价值的,因为Tesla拥有全球范围的客户,提供了各种环境、天气条件的数据,并持续收集车辆的异常道路表现数据。并且Tesla在数据标注上正在尝试向自动化标注的方向前行。



截至2020Q1,Tesla累计上路行驶里程达48亿km,Waymo位列第2,累计上路行驶里程约为1609万km。但Tesla基于全球用户基础零成本获取数据,而Waymo直接定位短时间内难以普及的L4,投入大量研发,但无法市场化,对于数据获取需重金雇佣车队实测,成本效益低。其他企业累计里程与Tesla非同一量级,造车新势力初入市场,正在经历数据积累过程,BBA仅顶配车型配置ADAS,市场定位决定用户基数,里程数天然不足。





目前Tesla硬件预埋,软件选择性激活,其FSD选装率持续提升,在推动毛利爬升的同时也将为Autopilot注入更多数据。



Tesla目标成为首家实现完全自动驾驶的公司,作为全球市值最高的车企之一,他的面前将不断出现挑战,我们也拭目以待“钢铁侠”创造奇迹。