自动驾驶的困境与选择
2021-12-12 00:12:26
Rainix
210
【导读】过去几年,人们对自动驾驶汽车产生了极大的热情。这的确在情理之中。自动驾驶汽车有望带来影响深远的好处:提高燃油效率、缩短行车时间、提高乘客体验和工作效率,让可能无法开车的老人和残疾人自由驾驶,以及最重要的提高道路安全。
尽管人们万分期待一款价格合理的全自动驾驶汽车,但技术复杂性、成本和监管挑战将自动驾驶汽车成为主流的时间一再推迟。智能化、自动化、移动计算平台……这些关键词承载着我们对未来汽车的想象。汽车制造行业的所有参与者正推动着这场变革。
如果你问:2022年会发生什么?这谁知道?
但有一点可以肯定:2022,汽车行业的军备竞赛将快速升级。
这场算力“军备赛”的背后,最为直接的驱动力在于,车企原有的计算平台(芯片)的算力不足问题逐步凸显:
一方面,各大车厂正在全力备战高级自动驾驶的量产,多传感器融合已经成为高阶自动驾驶应对复杂场景与安全冗余的必然趋势。处理这些数据需要非常强大的计算能力,L2级自动驾驶的算力要求大概是10+TOPS,但是到了L4/L5级自动驾驶算力则需要达到1000+TOPS,同比翻了100倍 另一方面,包括安波福、博世等Tier1巨头,以及大众、宝马等车企开始探索新型的电子电气架构,传统分布式的汽车电子电气架构正在向域集中式架构演进,从而带动了高性能大算力芯片的需求急剧上涨
现阶段,汽车产业在芯片厂家的推动下进入了算力比拼时代:
英伟达最新一款智能汽车和自动驾驶汽车芯片组——DRIVE Atlan,单颗芯片的算力能够达到1000TOPS,将应用于L4及L5级别自动驾驶 特斯拉推超级计算机Dojo,使用720个80GB版本的8x A100节点构建的超级计算机,总算力达到了1.8EFLOPS(EFLOPS:每秒千万亿次浮点运算),有10PB的存储空间,读写速度为1.6TBps
黑芝麻华山二号A1000 Pro,算力达到106(INT8)—196TOPS(INT4),单颗芯片可以支持高级别自动驾驶功能 地平线推出面向高级别自动驾驶的征程5,算力最高达到128TOPS,支持16路高清摄像头,实际性能超过特斯拉FSD
寒武纪跑步进入自动驾驶领域,将发布一款算力超200TOPS智能驾驶芯片
一场算力竞赛已经在各大芯片企业之间悄然兴起,追求TOPS算力真的有那么重要吗?
是不是堆叠芯片的算力,就能达到目的了?
业内似乎进入了“唯算力论”的误区。
算力堆不出自动驾驶
我们说“数据是生产资料”,而提供处理数据的芯片是工具,不可能工具反客为主成为核心。工具是必备的,但是更重要的核心是跑在上面的软件。
谷歌第一代TPU,理论值为90TOPS算力,最差真实值只有1/9,也就是10TOPS算力,因为第一代内存带宽仅34GB/s 第二代TPU下血本使用了HBM内存,带宽提升到600GB/s(单一芯片,TPU V2板内存总带宽2400GB/s) 最新的英伟达的A100使用40GB的2代HBM,带宽提升到1600GB/s,比V100提升大约73% 特斯拉是128 bitLPDDR4-4266,内存的带宽:2133MHz*2DDR*128bit/8/1000=68.256GB/s。比第一代TPU略好(这些都是理论上的最大峰值带宽)其性能最差真实值估计是2/9。也就是大约8TOPS
如果你的算法或者说CNN卷积需要的算力是1TOPS,而运算平台的算力是4TOPS,那么利用效率只有25%,运算单元大部分时候都在等待数据传送,特别是batch尺寸较小时候,这时候存储带宽不足会严重限制性能。但如果超出平台的运算能力,延迟会大幅度增加,存储瓶颈一样很要命。效率在90-95%情况下,存储瓶颈影响最小,但这并不意味着不影响了,影响依然存在。然而平台不会只运算一种算法,运算利用效率很难稳定在90-95%。这就是为何大部分人工智能算法公司都想定制或自制计算平台的主要原因,计算平台厂家也需要推出与之配套的算法,软硬一体,实难分开。
作为车企来说,还有一个芯片的成本问题。算力有多重要,就有多昂贵。据有关机构评估下来,做一颗车规级的AI芯片,就是L2+、L3的 AI芯片大概成本在5亿到7亿美金之间,时间是在2~3年。
现在算力的军备竞赛是已经掀起来了,但是芯片的算力本质上对于智能驾驶系统还是必要不充分的条件,现在大家更多提的算力是峰值算力。我们经常会看到一个优化程度不好的芯片宣称有10TOPS算力,实际跑出来的应用等效只有3~4TOPS的算力。
现在的一种倾向是“L4硬件+L2软件”,先硬件“预埋”以达标或者超标,软件上慢慢积累。但是反过来说,这是不是一种浪费?恐怕,还是要对每一个TOPS都要精打细算地使用。
高功耗、低利用率日益突出
性能,即所谓的算力 成本 功耗 易用性,或者是叫易开发性 同构性,就是芯片平台对其他系统的兼容性
功耗是如何去平衡整个板载级、芯片级层面功耗。但是对于芯片公司来讲,芯片的功耗不仅包括AI部分,因为目前很多芯片都是多核异构的 利用率是AI算法优化利用算力的能力。跟每一家神经网络的架构是有关系的,对于有的大通量、并行计算,它的利用率一定是有天花板的 在ASIC方案中,每一家的架构是不一样的,算法也不尽相同 对于同一个算法在不同的芯片平台上去跑,算子库越丰富,算法跨平台移植的效果就会越好,所以ASIC的利用率一定比GPU要高
对于车企来说,在最高性能模式下,如果自动驾驶控制器的芯片功耗级别较高,即便其自身性能强劲,但也会引发某些不可预知的隐患,如发热量成倍增加,耗电率成倍增加,这些结果对于智能电动车来说毫无疑问是颗“雷”。
事件相机的灵感来自人眼和动物的视觉,也有人称之为硅视网膜。生物的视觉只针对有变化的区域才敏感,比如眼前突然掉下来一个物体,那么人眼会忽视背景,会将注意力集中在这个物体上,事件相机就是捕捉事件的产生或者说变化的产生。在传统的视觉领域,相机传回的信息是同步的,所谓同步,就是在某一时刻t,相机会进行曝光,把这一时刻所有的像素填在一个矩阵里回传,一张照片就诞生了。一张照片上所有的像素都对应着同一时刻。至于视频,不过是很多帧的图片,相邻图片间的时间间隔可大可小,这便是我们常说的帧率(frame rate),也称为时延(time latency)。事件相机类似于人类的大脑和眼睛,跳过不相关的背景,直接感知一个场景的核心,创建纯事件而非数据。
传统相机的动态范围是无法做宽的,因为放大器会有线性范围,照顾了低照度就无法适应强光,反过来适应了强光就无法顾及低照度。事件相机在目标追踪、动作识别等领域具备压倒性优势,尤其适合自动驾驶领域。
空中一个球的轨迹,
扔一个球,看看两种相机的轨迹记录:
中国自动驾驶正在显示出三条主流技术路线:
特斯拉路线:纯视觉路线,特斯拉芯片+特斯拉算法+视觉传感器 英伟达路线:融合感知路线,英伟达芯片+多种传感器+OEM自研算法 华为路线:融合感知路线,华为芯片+华为算法+多种传感器
特斯拉目前最顶配的FSD,8个摄像头的分辨率只有130万像素,就已经需要144TOPS的算力,而目前英伟达的自动驾驶试验车型用的摄像头已经是800万像素,因此1000TOPS的算力是必须的,如此大的算力不仅带来高成本,还有高热量。除非能挖矿,否则是太浪费了。
-----END-----