最新HONGHU PX

titan-v-deep-learning-benchmarks

使用TensorFlow的Titan V深度學習基準 - 2019年

在這篇文章中，Lambda Labs對Titan V的深度學習/機器學習性能進行了基準測試，並將其與其他常用GPU進行了比較。

我們使用Titan V來訓練ResNet-50，ResNet-152，Inception v3，Inception v4，VGG-16，AlexNet和SSD300。我們在訓練每個網絡時測量每秒處理的圖像數量。

幾點說明：

我們使用TensorFlow 1.12 / CUDA 10.0.130 / cuDNN 7.4.1
在Lambda Quad - 深度學習工作站上運行單GPU基準測試
在Lambda Blade - Deep Learning Server上運行了多GPU基準測試
V100基準測試在Lambda Hyperplane - Tesla V100服務器上運行
在具有它們的所有GPU上使用Tensor Core

Titan V - FP32 TensorFlow性能（1 GPU）

對於FP32神經網絡訓練，NVIDIA Titan V是......

比RTX 2080快42％
比GTX 1080 Ti快41％
比Titan XP快26％
比RTX 2080 Ti快4％
比 Titan RTX快90％
比特斯拉V100（32 GB）快75％

通過訓練期間每秒處理的＃個圖像來衡量。

Titan V - FP16 TensorFlow性能（1 GPU）

對於神經網絡的FP16訓練，NVIDIA Titan V是......

比GTX 1080 Ti快111％
比Titan XP快94％
比RTX 2080快70％
比RTX 2080 Ti快23％
比 Titan RTX快87％
比特斯拉V100（32 GB）快68％

通過訓練期間每秒處理的＃個圖像來衡量。

FP32多GPU縮放性能（1,2,4,8 GPU）

對於每一個GPU類型（泰坦V，RTX 2080的Ti，RTX 2080等），我們測量的性能，同時訓練用1，2，4，和8個GPU上的每個神經網絡，然後平均結果。下圖提供了FP32中神經網絡的多GPU訓練期間每個GPU如何縮放的指導。該圖表可以理解如下：

使用8個Titan Vs比使用單個Titan V快5.18倍
使用8個特斯拉V100比使用單個Titan V快9.68倍
使用8個特斯拉V100比使用8個Titan V快9.68 / 5.18 = 1.87倍

Titan V - FP16與FP32

FP16可以縮短培訓時間並實現更大批量/型號，而不會顯著影響模型精度。與FP32相比，Titan V上的FP16訓練是......

ResNet-50的速度提高了80％
ResNet-152的速度提高69％
在Inception v3上快70％
在Inception v4上快51％
VGG-16的速度提高96％
在AlexNet上快78％
SSD300的速度提高了57％

通過訓練期間每秒處理的圖像數量來衡量。這使得平均加速為+ 71.6％。

注意事項：如果您不熟悉機器學習或只是測試代碼，我們建議您使用FP32。降低FP16的精度可能會影響收斂。

GPU價格

Titan V：2,999.00美元
RTX 2080 Ti：1,199.00美元
RTX 2080：799.00美元
Titan RTX：2,499.00美元
特斯拉V100（32 GB）：約$ 8,200.00
GTX 1080 Ti：699.00美元
Titan Xp：1,200.00美元

方法

對於每個模型，我們進行了10次訓練實驗並測量了每秒處理的圖像數量; 然後我們對10個實驗的結果進行平均。
對於每個GPU /神經網絡組合，我們使用了適合內存的最大批量大小。例如，在ResNet-50上，V100使用的批量大小為192; RTX 2080 Ti的批量大小為64。
我們使用合成數據而不是真實數據來最小化非GPU相關的瓶頸
使用模型級並行性執行多GPU培訓

硬件

單GPU培訓：Lambda Quad - 深度學習GPU工作站。CPU：i9-7920X / RAM：64 GB DDR4 2400 MHz。
多GPU培訓：Lambda Blade - 深度學習GPU服務器。CPU：Xeon E5-2650 v4 / RAM：128 GB DDR4 2400 MHz ECC
V100基準測試：Lambda Hyperplane - Tesla V100服務器。CPU：Xeon Gold 6148 / RAM：256 GB DDR4 2400 MHz ECC

軟件

Ubuntu 18.04（仿生）
TensorFlow 1.12
CUDA 10.0.130
cuDNN 7.4.1

Run Our Benchmarks On Your Own Machine

Our benchmarking code is on github. We'd love it if you shared the results with us by emailing s@lambdalabs.com or tweeting @LambdaAPI.

Step #1: Clone Benchmark Repository

git clone https://github.com/lambdal/lambda-tensorflow-benchmark.git --recursive

Step #2: Run Benchmark

- Input a proper gpu_index (default 0) and num_iterations (default 10)

cd lambda-tensorflow-benchmark ./benchmark.sh gpu_index num_iterations

Step #3: Report Results

- Check the repo directory for folder <cpu>-<gpu>.logs (generated by benchmark.sh)
- Use the same num_iterations in benchmarking and reporting.

./report.sh <cpu>-<gpu>.logs num_iterations

Raw Benchmark Data

FP32: # Images Processed Per Sec During TensorFlow Training (1 GPU)

FP16: # Images Processed Per Sec During TensorFlow Training (1 GPU)

歡迎與我們聯繫,

我們從事基礎人工智能技術的開發工作。所有技術，從語音識別到計算機視覺、自然語言處理、數據倉庫、用戶理解，我們用人工智能技術支持很多國際業務並孵化新業務方向。

我們也提供許多GPU相關解決方案,對於AI開發團隊,有許多完整且具有經驗的支持.

鴻鵠國際股份有限公司

業務窗口蔡先生

行動電話：0910-218-322

公司電話：02-2929-9388 #10

公司傳真：02-2929-7579

Email: sales1@honghutech.com

Page updated

Report abuse