使用TensorFlow的Titan V深度學習基準 - 2019年
在這篇文章中,Lambda Labs對Titan V的深度學習/機器學習性能進行了基準測試,並將其與其他常用GPU進行了比較。 我們使用Titan V來訓練ResNet-50,ResNet-152,Inception v3,Inception v4,VGG-16,AlexNet和SSD300。我們在訓練每個網絡時測量每秒處理的圖像數量。
幾點說明: Titan V - FP32 TensorFlow性能(1 GPU)
對於FP32神經網絡訓練,NVIDIA Titan V是...... - 比RTX 2080快42%
- 比GTX 1080 Ti快41%
- 比Titan XP快26%
- 比RTX 2080 Ti快4%
- 比 Titan RTX快90%
- 比特斯拉V100(32 GB)快75%
通過訓練期間每秒處理的#個圖像來衡量。
Titan V - FP16 TensorFlow性能(1 GPU)對於神經網絡的FP16訓練,NVIDIA Titan V是...... - 比GTX 1080 Ti快111%
- 比Titan XP快94%
- 比RTX 2080快70%
- 比RTX 2080 Ti快23%
- 比 Titan RTX快87%
- 比特斯拉V100(32 GB)快68%
通過訓練期間每秒處理的#個圖像來衡量。
FP32多GPU縮放性能(1,2,4,8 GPU)對於每一個GPU類型(泰坦V,RTX 2080的Ti,RTX 2080等),我們測量的性能,同時訓練用1,2,4,和8個GPU上的每個神經網絡,然後平均結果。下圖提供了FP32中神經網絡的多GPU訓練期間每個GPU如何縮放的指導。該圖表可以理解如下: - 使用8個Titan Vs比使用單個Titan V快5.18倍
- 使用8個特斯拉V100比使用單個Titan V快9.68倍
- 使用8個特斯拉V100比使用8個Titan V快9.68 / 5.18 = 1.87倍
Titan V - FP16與FP32FP16可以縮短培訓時間並實現更大批量/型號,而不會顯著影響模型精度。與FP32相比,Titan V上的FP16訓練是...... - ResNet-50的速度提高了80%
- ResNet-152的速度提高69%
- 在Inception v3上快70%
- 在Inception v4上快51%
- VGG-16的速度提高96%
- 在AlexNet上快78%
- SSD300的速度提高了57%
通過訓練期間每秒處理的圖像數量來衡量。這使得平均加速為+ 71.6%。 注意事項:如果您不熟悉機器學習或只是測試代碼,我們建議您使用FP32。降低FP16的精度可能會影響收斂。 GPU價格- Titan V:2,999.00美元
- RTX 2080 Ti:1,199.00美元
- RTX 2080:799.00美元
- Titan RTX:2,499.00美元
- 特斯拉V100(32 GB):約$ 8,200.00
- GTX 1080 Ti:699.00美元
- Titan Xp:1,200.00美元
方法- 對於每個模型,我們進行了10次訓練實驗並測量了每秒處理的圖像數量; 然後我們對10個實驗的結果進行平均。
- 對於每個GPU /神經網絡組合,我們使用了適合內存的最大批量大小。例如,在ResNet-50上,V100使用的批量大小為192; RTX 2080 Ti的批量大小為64。
- 我們使用合成數據而不是真實數據來最小化非GPU相關的瓶頸
- 使用模型級並行性執行多GPU培訓
硬件軟件- Ubuntu 18.04(仿生)
- TensorFlow 1.12
- CUDA 10.0.130
- cuDNN 7.4.1
Run Our Benchmarks On Your Own MachineOur benchmarking code is on github. We'd love it if you shared the results with us by emailing s@lambdalabs.com or tweeting @LambdaAPI. Step #1: Clone Benchmark Repositorygit clone https://github.com/lambdal/lambda-tensorflow-benchmark.git --recursive
Step #2: Run Benchmark- Input a proper gpu_index (default 0) and num_iterations (default 10)
cd lambda-tensorflow-benchmark
./benchmark.sh gpu_index num_iterations
Step #3: Report Results- Check the repo directory for folder <cpu>-<gpu>.logs (generated by benchmark.sh)
- Use the same num_iterations in benchmarking and reporting.
./report.sh <cpu>-<gpu>.logs num_iterations
Raw Benchmark DataFP32: # Images Processed Per Sec During TensorFlow Training (1 GPU)Model / GPU | RTX 2080 Ti | RTX 2080 | Titan RTX | Titan V | V100 | Titan Xp | 1080 Ti |
---|
ResNet-50 | 294 | 213 | 330 | 300 | 405 | 236 | 209 | ResNet-152 | 110 | 83 | 129 | 107 | 155 | 90 | 81 | Inception v3 | 194 | 142 | 221 | 208 | 259 | 151 | 136 | Inception v4 | 79 | 56 | 96 | 77 | 112 | 63 | 58 | VGG16 | 170 | 122 | 195 | 195 | 240 | 154 | 134 | AlexNet | 3627 | 2650 | 4046 | 3796 | 4782 | 3004 | 2762 | SSD300 | 149 | 111 | 169 | 156 | 200 | 123 | 108 |
FP16: # Images Processed Per Sec During TensorFlow Training (1 GPU)Model / GPU | RTX 2080 Ti | RTX 2080 | Titan RTX | Titan V | V100 | Titan Xp | 1080 Ti |
---|
ResNet-50 | 466 | 329 | 612 | 539 | 811 | 289 | 263 | ResNet-152 | 167 | 124 | 234 | 181 | 305 | 104 | 96 | Inception v3 | 286 | 203 | 381 | 353 | 494 | 169 | 156 | Inception v4 | 106 | 74 | 154 | 116 | 193 | 67 | 62 | VGG16 | 255 | 178 | 383 | 383 | 511 | 166 | 149 | AlexNet | 4988 | 3458 | 6627 | 6746 | 8922 | 3104 | 2891 | SSD300 | 195 | 153 | 292 | 245 | 350 | 136 | 123 |
歡迎與我們聯繫, 我們從事基礎人工智能技術的開發工作。所有技術,從語音識別到計算機視覺、自然語言處理、數據倉庫、用戶理解,我們用人工智能技術支持很多國際業務並孵化新業務方向。 我們也提供許多GPU相關解決方案,對於AI開發團隊,有許多完整且具有經驗的支持.
鴻鵠國際股份有限公司 業務窗口 蔡先生 行動電話:0910-218-322 公司電話:02-2929-9388 #10 公司傳真:02-2929-7579 Email: sales1@honghutech.com |
|