近期車用芯片供貨緊張導(dǎo)致大眾部分停產(chǎn),再次突顯了芯片對汽車的重要性,也顯示出握有上游資源的重要性,對傳統(tǒng)車廠來說這是一次警告,對蘋果來說,則是一則喜訊。蘋果在芯片領(lǐng)域耕耘多年,擁有豐富的資源。蘋果可以用手機(jī)巨大的出貨量攤薄汽車芯片高昂的研發(fā)成本,以高性價(jià)比超越英偉達(dá)和 Mobileye,當(dāng)然也可以輕松碾壓特斯拉。同時(shí)亦可借助芯片提升造車的成功機(jī)率。
汽車進(jìn)入智能化時(shí)代后,幾顆關(guān)鍵的主芯片,包括汽車座艙、智能駕駛和 V2X 芯片,都與手機(jī) SoC 芯片高度重合,手機(jī)領(lǐng)域芯片稍作修改就可用于車載領(lǐng)域。這也使得高通、華為、聯(lián)發(fā)科、三星手機(jī)芯片巨頭紛紛進(jìn)入車載領(lǐng)域。
蘋果自動(dòng)駕駛原型車上搭配的大量傳感器
2020 年 11 月 11 日,蘋果自研芯片 M1 正式亮相,這顆 M1 芯片是蘋果從手機(jī)領(lǐng)域向手機(jī)以外領(lǐng)域擴(kuò)展的標(biāo)志,這顆芯片稍作修改就可以用于汽車座艙和無人駕駛。蘋果收購了英特爾的基帶團(tuán)隊(duì),將來也能推出 5G V2X 芯片。
實(shí)際蘋果 M1 只是試水性質(zhì)。蘋果的 A14 眾所周知,是兩個(gè) Firestorm 大核加四個(gè) Icestrom 小核,晶體管數(shù)量是 118 億個(gè),晶體管密度是 1.34 億 / 平方毫米,L2 Cache 是 8MB。M1 沿用了 A14 的設(shè)計(jì),晶體管密度完全一樣,只是增加了兩個(gè)大核,增加了 L2 Cache,增加一兩個(gè)專用硬核,除此之外并沒有新東西。甚至只是簡單的添加,連優(yōu)化都沒有做,L2 Cache 多出來的 4MB 是外掛的,叫 L2.5 或許更合適。
蘋果這么做,復(fù)用了 A14 的設(shè)計(jì),攤薄了成本,后續(xù)蘋果會(huì)推出一系列優(yōu)化過后的芯片,性能將更強(qiáng)。GPU 算力上,M1 已經(jīng)是英偉達(dá) Xavier 的兩倍,英偉達(dá)的 Xavier 的 GPU 算力是 1.3FLTOPS(FP32),深度學(xué)習(xí)上,Xavier 比較高,有 30TOPS(INT8)。但 M1 要想做到 Orin 的 200TOPS(INT8)也易如反掌。
英偉達(dá)最新的 A100 GPU 是采用臺(tái)積電 7 納米工藝制造的,總共有 542 億晶體管,裸晶面積有 826 平方毫米,晶體管密度僅為 0.656 億 / 平方毫米。跟蘋果 M1 的密度差異巨大,要知道 A100 是純 GPU,電路比較單一,互連較少,很容易做高密度,如果是 Orin 這種 SoC,密度會(huì)下降很多,估計(jì)只有 0.55 億 / 平方毫米。不過這也算不錯(cuò)。
英偉達(dá)的 GA104 采用三星的 8 納米工藝,晶體管數(shù)量只有 174 億個(gè),裸晶面積高達(dá) 392 平方毫米,晶體管密度只有 0.444 億 / 平方毫米,臺(tái)積電的 7 納米工藝輕松秒殺三星的 8 納米工藝。如果 Orin 用三星的 8 納米工藝,裸晶面積會(huì)高達(dá) 500 平方毫米,面積大一倍,硬件成本也幾乎增加 50%以上。因?yàn)?GPU 的眾核架構(gòu),內(nèi)部連線多,晶體管密度很難提高,但 GPU 擅長并行計(jì)算,NPU 只能做 MAC 運(yùn)算,NPU 替代不了 GPU ,GPU 還得留著。
?
分辨率是 1180*1125,16 核 NPU 所占面積大約 1/15,也就是 7.93 平方毫米,有 11TOPS 的算力,如果蘋果 M1 也將裸晶面積擴(kuò)展到 309 平方毫米,并且把多出來的都用 NPU,那么就多出來 263.56TOPS 的算力,加上原本的 11TOPS,有 274TOPS,扣除掉一些連線和其他元件,密度自然不會(huì)這么高,但 200TOPS 還是沒有任何問題的。
再來看 CPU 部分,做自動(dòng)駕駛 SoC,CPU 的算力需求一樣很高,傳統(tǒng)智能駕駛的定位、傳感器融合、規(guī)劃、決策、通訊性能都取決于 CPU,人工智能的 NPU 算力只負(fù)責(zé)感知中的深度學(xué)習(xí)卷積運(yùn)算,面非常窄,80%的性能還是由 CPU 決定,按照 ARM 的觀點(diǎn),L4 級自動(dòng)駕駛芯片的 CPU 算力要大于 250K DMIPS,同時(shí)功耗要低于 30 瓦。
?
英偉達(dá)的 Orin 是 ARM 的 Hercules,也就是 Cortex-A78??梢钥闯?M1 的 L1/L2 容量、解碼寬度、ROB 規(guī)模都非常大,往往是其它 CPU 的兩三倍(其中 12 MiB 的 L2 容量是四個(gè)大核共享,平均 3 MiB/ 核心,但運(yùn)行單線程應(yīng)用的時(shí)候,理論上可以全部由單個(gè)核心使用),前端、調(diào)度單元、緩存的龐大規(guī)模,保證了執(zhí)行單元能最高效率發(fā)揮性能。因此單線程成績異常優(yōu)秀,足以碾壓英特爾桌面級 CPU,也足以超越 Orin,更不要說遠(yuǎn)不如 Orin 的特斯拉 FSD。
?
為什么 M1 的單核性能幾乎是目前全球最高的?關(guān)鍵在于其 IPC(執(zhí)行指令每周期)也就是圖中的解碼器是 8 個(gè),簡單地說就是一個(gè)周期能執(zhí)行 8 條指令,而英特爾是 5 個(gè),英偉達(dá)是 4 個(gè)。特斯拉的 A72 只有 3 個(gè)。因此同樣頻率下 M1 單核性能是英偉達(dá)的一倍,比英特爾多 60%。在亂序執(zhí)行性能方面,M1 要遠(yuǎn)比英特爾和英偉達(dá)強(qiáng)。為什么 M1 可以有 8 個(gè),英特爾和英偉達(dá)不能增加嗎?這主要是 ARM 架構(gòu)(RISC,精簡指令集)和 CISC(X86 架構(gòu)用的復(fù)雜指令集)導(dǎo)致的。
CISC 指令的長度不固定,即 1-15 比特。RISC 則是固定的。因此長度固定,可以分割為 8 個(gè)并行指令進(jìn)入 8 個(gè)解碼器,但 CISC 就不能,它不知道指令的長度,因此需要預(yù)測指令的長度,也就是分支預(yù)測 Branch predictor,在分支指令執(zhí)行結(jié)束之前猜測哪一路分支將會(huì)被運(yùn)行,以提高處理器的指令流水線的性能。分支預(yù)測器猜測條件表達(dá)式兩路分支中哪一路最可能發(fā)生,然后推測執(zhí)行這一路的指令,來避免流水線停頓造成的時(shí)間浪費(fèi)。如果后來發(fā)現(xiàn)分支預(yù)測錯(cuò)誤,那么流水線中推測執(zhí)行的那些中間結(jié)果全部放棄,重新獲取正確的分支路線上的指令開始執(zhí)行,這招致了程序執(zhí)行的延遲。這就好像火車過岔路口,不知道哪一個(gè)正確,走過去一看,錯(cuò)了,只能倒回來走另外一條。
現(xiàn)代微處理器趨向采用非常長的流水線,因此分支預(yù)測失敗可能會(huì)損失 10-20 個(gè)時(shí)鐘周期。越長的流水線就需要越好的分支預(yù)測。分支預(yù)測器異常復(fù)雜,這就使得解碼器很難增加,英特爾通過 CPU 內(nèi)部的微操作,經(jīng)歷長時(shí)間研發(fā),增加到 5 個(gè)(1 個(gè)復(fù)雜解碼器+4 個(gè)簡單解碼器)。不過遇到有些長指令,CISC 可以一次完成,RISC 因?yàn)殚L度固定,就像公交車站,一定要在某個(gè)站停留一下,肯定不如 CISC 快。也就是說,RISC 一定要跟指令集,操作系統(tǒng)做優(yōu)化,RISC 是以軟件為核心,針對某些特定軟件做的硬件,而 CISC 相反,他以硬件為核心,針對所有類型的軟件開發(fā)的。
英偉達(dá)照搬 Cortex-A78,其解碼器只有 4 個(gè),很難增加,那樣等于重新自研架構(gòu)了,可英偉達(dá)已經(jīng)放棄自研架構(gòu)了,M1 的指令重新排序緩沖區(qū) ROB 也具備壓倒性優(yōu)勢,這就是自研架構(gòu)的優(yōu)越之處。
再說特斯拉芯片設(shè)計(jì)能力遠(yuǎn)遜于英偉達(dá),英偉達(dá)都選用 ARM 公版架構(gòu),特斯拉自然不可能自研架構(gòu),特斯拉下一代采用臺(tái)積電工藝的二代 FSD 芯片,其 CPU 估計(jì)會(huì)選用 ARM Cortex-A76,因?yàn)榈谝淮?FSD 是 2019 年 4 月推出的,采用的是 ARM 在 2015 年推出的 A72 架構(gòu),第二代 FSD 預(yù)計(jì) 2021 年或 2022 年推出,最有可能選用的 CPU 架構(gòu)是 ARM 在 2018 年推出的 A76 架構(gòu)。
現(xiàn)代手機(jī)芯片一般都是大小核設(shè)計(jì)來控制功耗,蘋果、高通都是功耗控制頂尖高手。特斯拉顯然沒有這個(gè)能力,直接堆疊了 12 個(gè) A72,第一代 FSD 功耗高達(dá) 36 瓦,峰值可能達(dá) 72 瓦,這個(gè)肯定無法通過 ASIL 車規(guī)的。Orin 的 8 核,應(yīng)該也是大小核設(shè)計(jì)。第二代 FSD 估計(jì)只會(huì)增加比較容易做的 NPU,為降低功耗,CPU 方面不會(huì)增加多少性能,估計(jì)仍然是 125-150K 左右。
蘋果認(rèn)為多核是無意義的,CPU 通用計(jì)算能力在某些特定場合是要下降很多的,因此蘋果提倡多個(gè)專核或者叫硬核。M1 的專核包括圖像處理、視頻編解碼、音頻處理、加密解密、神經(jīng)網(wǎng)絡(luò)加速。用在座艙或自動(dòng)駕駛領(lǐng)域,可以把音頻處理、加密解密、視頻編解碼換成雙目視差、光流、ISP。
M1 幾乎和 A14 一樣,研發(fā)成本可以忽略。而 A14 的成本大約為 75-80 美元,M1 可以再低一點(diǎn)點(diǎn),大約 70 美元,即使 M1 將 FPU 提高到 200TOPS(單純增加 FPU 幾乎不增加研發(fā)成本,堆疊更多 MAC 而已),其價(jià)格也會(huì)遠(yuǎn)低于英偉達(dá) Orin 的價(jià)格,大約只是英偉達(dá)的 1/2-1/3。不過蘋果不會(huì)正面與英偉達(dá)競爭,蘋果不會(huì)賣芯片,蘋果還是會(huì)打造自己的生態(tài)體系。這一次是電動(dòng)車生態(tài)體系。
除了蘋果,高通 Ride 的性能也足以抗衡英偉達(dá) Orin,高通有著每年至少 6 億片的出貨量,也可以分?jǐn)偤芏喑杀?,包括研發(fā)成本和硬件成本。
要看到 A14 幾十億美元的研發(fā)經(jīng)費(fèi),還有上億片的訂單數(shù)量,世界上沒有第二家企業(yè)能做到單一芯片上如此大的出貨量和如此大的研發(fā)投入(高通能達(dá)到這個(gè)出貨量,但單一芯片的研發(fā)投入肯定無法和一年只做一個(gè)芯片的蘋果比)。如果只有幾十萬片的訂單,最終攤在芯片上的成本可能要上萬美元,再有就是目前高性能計(jì)算芯片晶圓代工被臺(tái)積電壟斷(三星的 8 納米 LP 那可憐的晶體管密度連臺(tái)積電的 12 納米都不如,英偉達(dá)遲早也得轉(zhuǎn)移到臺(tái)積電代工,否則等著被英特爾或 AMD 碾壓),產(chǎn)能非常緊張,一些幾百萬片的訂單被臺(tái)積電推后超過 1 年。而蘋果是臺(tái)積電第一大客戶,自然不會(huì)擔(dān)心供應(yīng)鏈的問題。中國急需發(fā)展的是晶圓代工而不是短平快且缺乏技術(shù)含量的的 AI 芯片設(shè)計(jì),即使設(shè)計(jì)出來,也沒沒有對應(yīng)的代工產(chǎn)能,只能是紙上芯片。
汽車進(jìn)入電動(dòng)化和智能化時(shí)代后,出現(xiàn)兩大變化,一是造車門檻大大降低,二是芯片重要性大大提升。燃油車和非智能化時(shí)代,蘋果無法在汽車領(lǐng)域復(fù)制其手機(jī)領(lǐng)域的成功,但電動(dòng)化和智能化時(shí)代,蘋果可以復(fù)制其在手機(jī)領(lǐng)域的成功。
? ? ? ?責(zé)任編輯:pj
