九草青草原在线看,国产精品久婷

編者按：8月份時(shí)候，我們曾出過一篇深度學(xué)習(xí)顯卡選型指南，由于當(dāng)時(shí)新顯卡還沒發(fā)售，文章只能基于新一代創(chuàng)新做一些推測性分析，對(duì)讀者來說，這樣的結(jié)果可能太晦澀，也不夠直觀。今天，論智就給大家?guī)砹肆硪黄哒f服力的文章，它來自人工智能硬件公司Lambda，主要對(duì)比分析了RTX 2080 Ti、RTX 2080、GTX 1080 Ti、Titan V和Tesla V100的成本、價(jià)格差異。

在深度學(xué)習(xí)實(shí)踐中，很多人會(huì)經(jīng)常問一個(gè)問題：什么是最好的深度學(xué)習(xí)GPU？在這篇文章中，我們將主要分析以下幾款目前最優(yōu)秀的GPU：

RTX 2080 Ti

RTX 2080

GTX 1080 Ti

Titan V

Tesla V100

為了從中挑選出最佳GPU，我們會(huì)從定價(jià)、性能兩個(gè)維度對(duì)它們進(jìn)行分析。

實(shí)驗(yàn)結(jié)果

根據(jù)全面定性定量的實(shí)驗(yàn)結(jié)果，截至2018年10月8日，NVIDIA RTX 2080 Ti是現(xiàn)在最好的深度學(xué)習(xí)GPU（用單個(gè)GPU運(yùn)行Tensoflow）。以單GPU系統(tǒng)的性能為例，對(duì)比其他GPU，它的優(yōu)劣分別是：

FP32時(shí)，速度比1080 Ti快38%；FP16時(shí)，快62％。在價(jià)格上，2080 Ti比1080 Ti貴25%

FP32時(shí)，速度比2080快35%；FP16時(shí)，快47％。在價(jià)格上，2080 Ti比2080貴25%

FP32時(shí)，速度是Titan V的96%；FP16時(shí)，快3％。在價(jià)格上，2080 Ti是Titan V的1/2

FP32時(shí)，速度是Tesla V100的80%；FP16時(shí)，是Tesla V100的82%。在價(jià)格上，2080 Ti是Tesla V100的1/5

請(qǐng)注意，所有實(shí)驗(yàn)都使用Tensor Core（可用時(shí)），并且完全按照單個(gè)GPU系統(tǒng)成本計(jì)算。

深入分析

實(shí)驗(yàn)中，所有GPU的性能都是通過在合成數(shù)據(jù)上訓(xùn)練常規(guī)模型，測量FP32和FP16時(shí)的吞吐量（每秒處理的訓(xùn)練樣本數(shù)）來進(jìn)行評(píng)估的。為了標(biāo)準(zhǔn)化數(shù)據(jù)，同時(shí)體現(xiàn)其他GPU相對(duì)于1080 Ti的提升情況，實(shí)驗(yàn)以1080 Ti的吞吐量為基數(shù)，將其他GPU吞吐量除以基數(shù)計(jì)算加速比，這個(gè)數(shù)據(jù)是衡量兩個(gè)系統(tǒng)間相對(duì)性能的指標(biāo)。

訓(xùn)練不同模型時(shí)，各型號(hào)GPU的吞吐量

對(duì)上圖數(shù)據(jù)計(jì)算平均值，同時(shí)按不同浮點(diǎn)計(jì)算能力進(jìn)行分類，我們可以得到：

FP16時(shí)各GPU相對(duì)1080 Ti的加速比

FP32時(shí)各GPU相對(duì)1080 Ti的加速比

可以發(fā)現(xiàn)，2080的模型訓(xùn)練用時(shí)和1080 Ti基本持平，但2080 Ti有顯著提升。而Titan V和Tesla V100由于是專為深度學(xué)習(xí)設(shè)計(jì)的GPU，它們的性能自然會(huì)比桌面級(jí)產(chǎn)品高出不少。最后，我們再將每個(gè)GPU的平均加速情況除以各自總成本：

FP16時(shí)各GPU相對(duì)1080 Ti的每美元加速情況

FP32時(shí)各GPU相對(duì)1080 Ti的每美元加速情況

根據(jù)這個(gè)評(píng)估指標(biāo)，RTX 2080 Ti是所有GPU中最物有所值的。

2080 Ti vs V100：2080 Ti真的那么快嗎？

可能有人會(huì)有疑問，為什么2080 Ti的速度能達(dá)到Tesla V100的80%，但它的價(jià)格只是后者的八分之一？答案很簡單，NVIDIA希望細(xì)分市場，以便那些有足夠財(cái)力的機(jī)構(gòu)/個(gè)人繼續(xù)購買Tesla V100（約9800美元），而普通用戶則可以選擇在自己價(jià)格接受范圍內(nèi)的RTX和GTX系列顯卡——它們的性價(jià)比更高。

除了AWS、Azure和Google Cloud這樣的云服務(wù)商，個(gè)人和機(jī)構(gòu)可能還是買2080 Ti更劃算。但這不是說亞馬遜、微軟、Google這些公司“人傻錢多”，Tesla V100確實(shí)有一些其他GPU所沒有的重要功能：

如果你需要FP64計(jì)算。如果你的研究領(lǐng)域是計(jì)算流體力學(xué)、N體模擬或其他需要高數(shù)值精度（FP64）的工作，那么你就得購買Titan V或V100s。

如果你對(duì)32 GB的內(nèi)存有極大需求（比如11G的內(nèi)存都不夠存儲(chǔ)模型的1個(gè)batch）。這類情況很少見，它面向的是想創(chuàng)建自己的模型體系架構(gòu)的用戶。而大多數(shù)人使用的都是像ResNet、VGG、Inception、SSD或Yolo這樣的東西，這些人的占比可能不到5%。

面對(duì)2080 Ti，為什么還會(huì)有人買Tesla V100？這就是NVIDIA做生意的高明之處。

2080 Ti是保時(shí)捷911，V100是布加迪威龍

V100有點(diǎn)像布加迪威龍，它是世界上最快的、能在公路上合法行駛的車，同時(shí)價(jià)格也貴得離譜。如果你不得不擔(dān)心它的保險(xiǎn)和維修費(fèi)，那你肯定買不起這車。另一方面，RTX 2080 Ti就像一輛保時(shí)捷911，它速度非常快，操控性好，價(jià)格昂貴，但在炫耀性上就遠(yuǎn)不如前者。

畢竟如果你有買布加迪威龍的錢，你可以買一輛保時(shí)捷，外加一幢房子、一輛寶馬7系、送三個(gè)孩子上大學(xué)和一筆客觀的退休金。

原始性能數(shù)據(jù)

FP32吞吐量

FP32（單精度）算法是訓(xùn)練CNN時(shí)最常用的精度。以下是實(shí)驗(yàn)中的具體吞吐量數(shù)據(jù)：

FP16吞吐量（Sako）

FP16（半精度）算法足以訓(xùn)練許多網(wǎng)絡(luò)，這里實(shí)驗(yàn)用了Yusaku Sako基準(zhǔn)腳本：

FP32（Sako）

FP16時(shí)訓(xùn)練加速比（以1080 Ti為基準(zhǔn)）

FP32時(shí)訓(xùn)練加速比（以1080 Ti為基準(zhǔn)）

價(jià)格表現(xiàn)數(shù)據(jù)（加速/$1,000）FP32

價(jià)格表現(xiàn)數(shù)據(jù)（加速/$1,000）FP16

實(shí)驗(yàn)方法

所有模型都在合成數(shù)據(jù)集上進(jìn)行訓(xùn)練，這能將GPU性能與CPU預(yù)處理性能有效隔離開來。

對(duì)于每個(gè)GPU，對(duì)每個(gè)模型進(jìn)行10次訓(xùn)練實(shí)驗(yàn)。測量每秒處理的圖像數(shù)量，然后在10次實(shí)驗(yàn)中取平均值。

計(jì)算加速基準(zhǔn)的方法是獲取的圖像/秒吞吐量除以該特定模型的最小圖像/秒吞吐量。這基本上顯示了相對(duì)于基線的百分比改善（在本實(shí)驗(yàn)中基準(zhǔn)為1080 Ti）。

2080 Ti、2080、Titan V和V100基準(zhǔn)測試中考慮到了Tensor Core。

實(shí)驗(yàn)中使用的batch size

此外，實(shí)驗(yàn)還有關(guān)于硬件、軟件和“什么是典型的單GPU系統(tǒng)”的具體設(shè)置，力求盡量還原普通用戶的模型訓(xùn)練環(huán)境，充分保障了結(jié)果的準(zhǔn)確性。相信看到這里，結(jié)合之前那篇長文，大家已經(jīng)對(duì)該買什么GPU有了清楚認(rèn)識(shí)，祝各位剁手愉快！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴