智能座舱域和自动驾驶域成为目前汽车智能化发展核心。本文将按整车分为自动驾驶域、智能座舱域、车身域(车身+底盘+动力域),通过研究特斯拉等造车新势力以及 Tier1 和传统车厂目前在汽车智能化领域的布局,梳理目前汽车域控制器芯片及智能软件的应用情况和发展趋势。
1)Tier0.5 级供应商也可称为产业的下游,主要以各大车企和传统 Tier1 供应商构成,如德赛西威、均胜电子、伟世通等,云计算和车联网的普及使华为、BAT 等互联网科技类供应商也分布于产业下游;2)Tier1 为座舱提供中控屏、仪表盘、流媒体后视镜、后排液晶显示器等硬件,同时配合开发信息娱乐解决方案、驾驶显示解决方案和 HUD 为智能座舱的电子化技术升级;3)传统的 Tier2 主要供应 PCB、显示面板、功率器件等电子产品,未来产业将集中升级操作系统相关软硬件,如增加应用软件、中间件软件、自主定制操作个性化系统、可达成“一芯多屏”的高效能低成本芯片。
集中取代分布。未来智能座舱所代表的多屏融合体验都将依赖于高计算能力的超级芯片。多个分布式的电子单元使每个系统如同“孤岛”一般,难以支持多屏幕融合、多模块互动等复杂座舱功能,“一芯多屏”替代多单元组件的技术将融合每座“孤岛”成为一块“新大陆”。“一块芯片、多屏互交”将成为智能座舱未来趋势,单一芯片可以降低系统复杂度以提高安全性能,并降低成本预算。通过融合云侧终端和 V2X 场景,底层芯片和车载系统根据各个电子控制单元(ECU)反馈的数据进行计算,了解汽车行驶状态以及各项参数指标,调配车辆至最佳行驶状态。
座舱域目前高通一枝独秀。高通已经赢得全球领先的 20+家汽车制造商的信息影音和数字座舱项目。目前高通通过骁龙 820A 和 602A 汽车平台,在数字座舱领域为汽车提供高水平的计算性能。包括奔驰、奥迪、保时捷、捷豹路虎、本田、吉利、长城、广汽、比亚迪、领克、小鹏、理想智造、威马汽车在内的国内外领先汽车制造商均已推出或宣布推出搭载骁龙汽车数字座舱平台的车型。2020 年多款上市新车型都搭载了骁龙 820A,包括全新领克 05、奥迪 A4L、小鹏 P7 及 2020款小鹏 G3 部分车型等。
车企对车载 OS 布局会根据战略格局以及自身实力划分为 3 种形式:1)定制化自主开发专属 OS;2)ROM 方式基于已有系统做上层 UI;3)直接采用现成的车载 OS 并搭建自身的应用软件。头部车厂大多倾向从整车硬件到车载 OS 都自己开发,形成自身独有的完整生态链。
车载 OS 是传统车产实现数字转型的关键,汽车将演变为移动智能终端。目前主流的底层车载操作系统共有四种:QNX、Linux、Android 以及 WinCE,其中WinCE 基本上已经退出市场。从主流车企选择的系统开发方式来看,海外高端车厂、零部件供应商(如奔驰、宝马等)和国内车企新势力(如小鹏、蔚来等)都选择自建技术团队,即在底层操作系统基础之上进行定制化开发,形成独有的车载系统。
虚拟机辅助软硬件的一体化聚合是未来趋势。Hypervisor(虚拟机)是运行在物理服务器和操作系统之间的中间软件层,可用于同步支持 Android、Linux、QNX 多系统。行业领先虚拟机有:QNX Hypervisor、ACRN、PikeOS 和哈曼 Device Virtualization,用于服务底层操作系统。
中间件层位于平台(操作系统)和应用软件层之间的软件,用于连接各个分布式系统和应用软件。中间件层可以使开发人员避开复杂的底层操作系统,直接在简单而统一的开发环境下接入应用软件,不仅缩短开发周期,还减少系统的维护、运营和管理的工作量。
由于需要对芯片和基础软件具有深刻的理解和充足的人才储备,故而软件定义汽车行业的壁垒较高,市场参与者较少。自动驾驶域应用逐步落地,商业化进程值得期待;自动驾驶域整体架构如下:
在传统芯片行业,常用算力、功耗和面积三大指标来衡量性能。由于自动驾驶功能对算力极高的追求,峰值算力成为衡量自动驾驶芯片的最主要指标。
目前一般认为,L2 需要的计算力<10TOPS,L3 需要的计算力为 30~60TOPS,L4 需要的计算力>100TOPS,而 L5 需要的计算力目前还未有明确定义(有预测需要至少 1000TOPS),每增加一级自动驾驶等级,算力需求则相应增长一个数量级。根据英特尔推算,在全自动驾驶时代,每辆汽车每天产生的数据量将高达 4000GB。
目前自动驾驶芯片的产品主要包括 Nvidia 系列、Mobileye 系列以及特斯拉自研FSD 芯片,具体主流车型搭载芯片参考下表。
1、特斯拉核心壁垒:自研自动驾驶芯片+神经网络算法+计算平台
特斯拉在汽车智能化领域最大的壁垒来自于其掌握核心数据、AI 算法、以及主控芯片自研。2014 年~2016 年,特斯拉自动驾驶域曾搭载 Mobileye EyeQ3 芯片;2016 年~2019 年,特斯拉将 Mobileye EyeQ3 更替为 Nvidia Parker SOC和 Nvidia Pascal GPU,搭载 DRIVE PX 2 AI 计算平台。由于英伟达的高能耗,2017 年起,马斯克决定开始自研主控芯片,尤其是主控芯片中的神经网络算法和 AI 处理单元全部由特斯拉自己完成;2019 年 4 月,特斯拉正式在 Autopilot HW3.0 平台上搭载了自研的 FSD 主控芯片。目前特斯拉自主研发的 FSD 芯片采用 14nm 的工艺制造,现版本于 2019 年 4月份首次发布,一个整体主板上有两个芯片,每个芯片包括一个中央处理器(CPU),一个图形加速卡(GPU)和两个神经网络计算单元(NPU),其中中央处理器和图像处理器都采用了第三方设计授权,以保证其性能和稳定性,并易于开发,关键的神经网络处理器设计由特斯拉自主研发, 马斯克称之为现阶段用于汽车自动驾驶领域最强大的芯片。中央处理器是 1 个 12 核心基于 ARM A72 架构的 64 位处理器,运行频率为2.2GHz;1 个图像处理器能够提供 0.6TFLOPS 计算能力,运行频率为 1GHz;2 个神经网络处理器在 2.2GHz 的运行频率下能提供 72TOPS 的处理能力。这三个处理器各有分工。简单来说,中央处理器作为汽车的中央大脑,除了处理大部分汽车数据之外,还会分配工作给图像处理器和神经网络处理器,并处理二者传输回来的数据,作出汽车的最终决策。2、英伟达:GPU 技术领先,驾驶域实力强劲
在车辆驾驶环境下,正属于多量、简单、即时任务的处理,意味着需要即时处理的数据量巨大,而 GPU 最适合处理这些数据集。GPU 有多个(或达数千个)被称为流处理器的单元处理数据,虽然这些单元的处理速度比 CPU 更慢,但所有这些处理器可以并行运行,即它们可以同时处理很多相对简单但具有大量数据的任务。CPU 可以轻松处理一个数据量大、时间长而且比较复杂的任务,而GPU 处理这类任务时就会吃力;而当有较多简单的任务时,GPU 优势凸显。英伟达在其自动驾驶套件中使用的芯片使用了基于神经网络的 AI 深度学习技术。英伟达的图灵 GPU 引入专门针对深度学习的特殊功能单元——Tensor Core,它能够让 GPU 对不同的数据类型可以进行混合计算,既同时实现 fp 浮点计算(测量 AI 训练峰值算力)和 int 整数运算(测量 AI 推理峰值算力),如下图所示,目前仅有英伟达的驾驶域 DCU 支持该类混合计算。以前一个代码如果用了整数, 对应的单精度性能就没有了,也就是说只能在单精度性能(浮点计算)和整数性能(整数计算)中进行选择。混合精度训练实现了所有这些好处,同时确保与全精度训练相比,不会损失特定于任务的精度。(FP32 是目前深度学习训练和推理中使用最多的高精度格式,主要用于图像处理;在低精度场景中,INT8 比较经常用来作为推理计算的数据格式。TFLOPS:浮点运算能力单位;TOPS:整数运算力单位。)目前在 L2+层级英伟达独占鳌头,但在 L2层级仍是 Mobileye 的 EyeQ 系列的主战场。
3、高通:座舱域芯片龙头,驾驶域产品持续迭代
高通在自己的芯片中也引入硬件化的 AI 计算单元,即在原来 Hexgon DSP 中增加 Tensor 核心,其实和 NVIDIA 在 GPU 当中增加 Tensor Core 的作法的目的相当类似,在不舍弃原本计算单元的过往兼容能力,以及可编程能力的前提下,增加更有效率的硬件计算单元,使整体计算能力提升,同时也满足未来 AI 应用需求,但同时又要兼顾低功耗持续计算的特性。高通驾驶域产品也将持续迭代,2021 年有望发布新产品。高通骁龙 SA8155P本身在座舱域实现高市占率,算力和制程优势突出。高通的图像处理器技术来源收购 AMD 部分“向量绘图(vectorgraphics)与 3D 绘图技术和知识产权(IP)”,当时正是 AMD 困难时期。
4、华为:不造车,但目标将 ICT 技术带入每一辆车
除华为的强项无线通信连接能力以外,目前华为在智能汽车的布局主要集中在智能驾驶、智能座舱、智能动力三个方面。目前华为已经在控制器上取得较多进展,华为的做法是提出代表计算和通信的 CC 架构,以及基于 CC 架构衍生出三大平台智能驾驶平台(MDC)、智能座舱平台(CDC)和整车控制平台(VDC)、联结和云服务。华为的 MDC、CDC、VDC 可以理解为三大域控制器。根据36 氪,华为消费者 BG 正在与智能汽车解决方案 BU 进行整合,总负责人是华为消费者业务 CEO 余承东。华为目前拥有从智能驾驶、智能座舱、智能电动mPower 整体解决方案,到智能网联、智能车云服务、商用车&专用车解决方案、ADS 智能驾驶全栈解决方案等一系列解决方案。1)智能汽车解决方案品牌:HI(Huawei Intelligent Automotive Solution)。包 括 1 个全新的计算与通信架构和 5 大智能系统,智能驾驶,智能座舱、智能电动、智能网联和智能车云,以及激光雷达、AR-HUD 等全套的智能化部件。同时,HI 品牌还从算力和操作系统层面规划了智能驾驶、智能座舱、智能车控三大计算平台,以及 AOS 智能驾驶操作系统、HOS 智能座舱操作系统和 VOS 智能车控操作系统三大操作系统。2)智能座舱:包含三大平台:Harmony 车机 OS 软件平台、Harmony 车域生态平台以及智能硬件平台。硬件具有车机模组、8 英寸超低反显示屏、座舱麦克风陈列模组、智能座舱高清摄像头等。3)智能驾驶解决方案:①计算平台:华为于 2018 年发布 MDC作为自动驾驶计算平台,已经与 50 多位包括主机厂研究院、传感器、执行器、应用算法、运营商等合作伙伴们,在各个层面达成了广泛而深入的合作关系。②自动驾驶系统:华为高阶自动驾驶系统 ADS 获德国莱茵 TV ASIL D 认证(该标准是全球电子零部件供应商进入汽车行业的准入门槛之一,目前,已通过 ISO 26262 功能安全认证的自动驾驶芯片仅有 Mobieye 的 EyeQ 系列,英伟达的Xavier 及华为的昇腾 310,特斯拉自研的 FSD 芯片通过 AECQ100 认证,而不是 ISO 26262),有望于 2022 年 Q1 登上量产车。③传感器:毫米波雷达、激光雷达、智能摄像头等产品加速落地。 4)智能动力:华为智能电动 mPower 整体解决方案中,具有车载充电系统、三合一及多合一电驱动系统、BMS(电池管理系统)、充电模块等。华为目前最新的自动驾驶平台旗舰产品是 MDC600,能够满足 L4 级别自动驾驶对域控制器的性能需求;而针对 L3 级别有条件自动驾驶,华为推出了MDC300。
MDC 平台使用的芯片内核是昇腾 310,昇腾 910 有望于 2021 年推出。昇腾310 单芯片算力为 16TOPS,功耗为 8W,能耗比为 2TOPS/W;特斯拉 Autopilot 3.0 处理单元上的 FSD 芯片单芯片算力为 72TOPS,功耗约为 36W,能耗比为2TOPS/W;英伟达最新 DRIVE AGX Orin 平台,其上搭载的 Orin 芯片,单芯片算力达到 200TOPS,功耗为 45W,功耗算力比为 4.4TOPS/W。相比起来,昇腾 310 的能耗比已赶上国际主流水平。目前昇腾 310 采用的是台积电 12nm工艺制造,随着未来生产工艺提升至 7nm 甚至 5nm,其能耗比还有进一步提升的空间。
5、地平线:生态合作广泛,DCU 芯片创业公司独角兽
地平线征程 3 采用 16 纳米工艺,基于地平线自主研发的 BPU2.0 架构,AI 算力达到 5 TOPS,典型功耗仅为 2.5W,具有高性能、低功耗、拓展性强、安全可靠的特点,支持高级别辅助驾驶、智能座舱、自动泊车辅助、高级别自动驾驶及众包高精地图定位等多种应用场景。地平线将推出更强大的征程 5,面向高等级自动驾驶场景,单芯片达到96 TOPS 的 AI 算力,支持 16 路摄像头,组成的自动驾驶计算平台具备 192-384 TOPS 算力,可支持 L3-L4 级自动驾驶。基于自研 AI 芯片打造的地平线“天工开物”AI 开发平台,由模型仓库、AI 芯片工具链及 AI 应用开发中间件三大功能模块构成,包含面向实际场景进行 AI算法和应用开发的全套工具,最大限度地方便客户进行个性化的应用开发,并可依据合作伙伴的不同需求提供不同层次的产品交付和服务,全面支持客户快速构建场景应用。地平线数据闭环系统赋能合作伙伴实现从数据采集标注、模型训练优化、仿真评测,到模型 OTA 部署,端到端的数据迭代闭环,打造具备覆盖整车整个生命周期的持续进化能力。
6、特斯拉Autopilot 系统解析
特斯拉的 Autopilot 是一个典型的决策控制器,主要的功能是接受前向雷达和前向摄像头的数据信息,然后进行计算决策。从 2014 年推出第一个版本开始,特斯拉的自动驾驶系统 Autopilot 经过了 4 次大的硬件版本更新,从最初 1.0 版本完全基于第三方供应商 Mobileye 提供芯片+算法,到 2.0、2.5 版本逐步过渡到自研算法+英伟达的芯片,最后在 2019 年 4 月份特斯拉成功推出自研芯片,实现了自动驾驶芯片+神经网络算法的垂直整合。Autopilot 采用自研芯片后,系统性能得到了显著提升,从 2.5 版本只能同时处理每秒 110 帧图像进化到 3.0 版本能够同时处理每秒 2,300 帧的图像,性能提高了 21 倍;与此同时,芯片成本也较之前下降了 20%。特斯拉的 Autopilot 可以实现车辆的自动辅助转向(Autosteer)、自动辅助加速和自动辅助制动,升级之后更是增加了自动变换车道、进出闸道、自动泊车(Autopark)以及在交通路口根据信号灯停走(Traffic-Aware Cruise Control)的功能。CPU、GPU、DSP 等传统芯片目前仍是智能汽车主流芯片,算力指标上有所差异。比较常见的 CPU 算力指标是整数运算,而 GPU 比较常见的算力指标是浮点运算。例如英伟达的图灵 GPU 引入专门针对深度学习的特殊功能单元——Tensor Core,它能够让 GPU 对不同的数据类型可以进行混合计算,既同时实现 fp 浮点计算(测量 AI 训练峰值算力)和 int 整数运算(测量AI 推理峰值算力)。TFLOPS:浮点运算能力单位;TOPS:整数运算力单位。以前一个代码如果用了整数, 对应的单精度性能就没有了,也就是说只能在单精度性能(浮点计算)和整数性能(整数计算)中进行选择。混合精度训练实现了所有这些好处,同时确保与全精度训练相比,不会损失特定于任务的精度。FP32 是目前深度学习训练和推理中使用最多的高精度格式,主要用于图像处理;在低精度场景中,INT8 比较经常用来作为推理计算的数据格式。
从应用方面,例如压缩算法、排序算法、以及其他主要应用,都是依赖 CPU 整数运算性能;而视频编码解码、数字图像处理(光影等)、3D 游戏等,依赖 GPU去解决浮点运算。FPGA、ASIC 设计方式应运而生。从 IC 设计上,虽然频率很重要,但是芯片的主要瓶颈还在带宽和存储部件上。因为程序的大量数据,都是与存储部件进行交互。芯片架构冗余会导致瓶颈问题更加突出,故而针对应用场景定制化或者半定制化的芯片设计模式应用而生——ASIC、FPGA。
FPGA 和 ASIC 产品的使用要根据产品的定位和设计需要来选用,ASIC 产品适用于设计规模特别大,如 CPU、GPU、DSP 或多层交换芯片等,或者是应用于技术非常成熟且利润率非常低的产品,如家用电器和其它消费类电器,亦或是大量应用的通用器件如 RAM、PHY 等。而 FPGA 产品适用于设计规模适中,产品要求快速占领市场,或产品需要灵活变动的特性设计等方面的产品,如PDH、2.5G 以下 SDH 设备和大部分的接口转换芯片等。