NVIDIA AI T4

揭秘NVIDIA加速AI推理的密碼,1台T4服務器完胜200台CPU服務器

每天,數以萬計的語音助手、翻譯、推薦、視頻管理、自動駕駛等各類新興服務,都在以超快速度完成深度學習推理。

用戶會看重AI產品的實時性、高準確度,而對於開發者來說,要考慮到的因素更多,不僅要滿足最終用戶的需求,還要考慮成本、能效等因素,因而,能滿足可編程性、低延遲、高準確度、高吞吐量、易部署的成套AI推理軟硬件組合成為開發者的心頭好。

而配備NVIDIA TensorRT超大規模推理平台的GPU可以說是學術界和產業界最受歡迎的AI推理組合之一,它們可以帶來速度、準確度和快速響應能力的成倍提升。

去年NVIDIA最新發布的Tesla T4 GPU,因其專為推理而生的超高效率、超低功耗,能為開發者節省大筆預算,已成為業界首選AI推理神器。

本期我們對《NVIDIA AI推理平台》白皮書進行解讀,看NVIDIA超大規模推理平台如何協同頂尖AI推理加速器Tesla T4 GPU,為深度學習推理帶來吞吐量、速度等性能的倍增,並降低數據中心運營商的開發成本。如果想查閱此白皮書《NVIDIA AI推理平台》,可直接點擊 http://nvidia.zhidx.com/content-9-1114-1.html 下載。

NVIDIA GPU推理的應用價值

NVIDIA AI推理平台就像一個隱形的推理助手,正通過互聯網巨頭的超大規模數據中心,為人們帶來各種新鮮且高效的AI體驗。

相比傳統的CPU服務器,GPU產品推理組合不僅能提升推理性能,還能更節省成本。

比如京東的視頻審核就使用NVIDIA AI平台,將服務器數量減少了83%。

每天由第三方商家上傳到京東POP平台的視頻數據不計其數,京東必須確保上傳的信息安全無害。

以前,要審核1000路的視頻流,京東必須在雲端部署1000枚CPU,而使用NVIDIA AI推理平台後,吞吐量提升20倍,速度比CPU快40倍,1台配備4個Tesla P40的服務器能代替超過約50台CPU服務器。

T4作為NVIDIA專為加速AI推理打造的GPU,在推理性能和能效比上一代產品P4 更勝一籌。

如圖,左邊是200台佔用四個機架的CPU服務器,支持語音、NLP和視頻應用,功耗達60千瓦。而相同的吞吐量和功能,一台搭載16塊T4 GPU的服務器就足矣,不僅如此,這台服務器還將功耗降為原來的1/30。

基於Turing架構的Tesla T4 GPU

NVIDIA Tesla T4 GPU是全球頂尖的通用加速器,適用於所有AI推理工作負載,不僅有小巧的外形規格和僅70瓦的超低功耗,而且效率比前一代Tesla P4超出兩倍以上。

它採用的Turing架構,除了繼承Volta架構為CUDA平台引入的增強功能外,還新增獨立線程調度、統一內存尋址等許多適合推理的特性。

Turing GPU能提供比歷代GPU更出色的推理性能、通用性和高效率,這主要歸功於如下幾個創新特性:

1、新型流式多元處理器(SM)

新型SM具有Turing Tensor核心,基於Volta GV100架構上經過重大改進的SM而構建。

它能像Volta Tensor核心一樣,可提供FP16和FP32混合精度矩陣數學,還新增了INT8和INT4精度模式。

通過實現線程間細粒度同步與合作等功能,Turing SM使得GPU的性能和能效均遠高於上一代Pascal GPU,同時簡化了編程。

2、包含實驗特性,首用GDDR6

Turing是首款採用GDDR6顯存的GPU架構,最高可提供320GB/s的顯存帶寬,其存儲器接口電路也經過全面重新設計。

相比此前Pascal GPU使用的GDDR5X。Turing的GDDR6將速度提升40%,能效提升20%。

3、專用硬件轉碼引擎

視頻解碼正呈現爆炸式增長,在內容推薦、廣告植入分析、無人車感知等領域都獲得大規模應用。

T4憑藉專業的硬件轉碼引擎,將解碼能力提升至上代GPU的兩倍,可以解碼多達38路全高清視頻流,而且能在不損失視頻畫質的前提下實現快速編碼或最低比特率編碼。

超大規模推理平台TensorRT

僅有強大硬件還不夠,要搭配高適配度的軟件工具,才能最大化硬件算力的利用率,為開發者帶來更完整和優化的開發體驗。

NVIDIA加速推理的優勢也正是在軟硬件的結合上凸顯出來,既有專為深度學習定制的處理器,又具備軟件可編程特質,還能加速TensorFlow、PyTorch、MXNet等各種主流深度學習框架,為全球開發者生態系統提供支持。

面向深度學習推理,NVIDIA提供了一套完整的推理套餐——TensorRT超大規模推理平台。

TensorRT包含T4推理加速器、TensorRT5高性能深度學習推理優化器和運行時、TensorRT推理服務三部分,支持深度學習推理應用程序的快速部署。

其中,TensorRT5將能夠優化並精確校準低精度網絡模型的準確度,最終將模型部署到超大規模數據中心、嵌入式或汽車產品平台。

TensorRT推理服務是NVIDIA GPU Cloud免費提供的即用型容器,能提高GPU利用率,降低成本,還能簡化向GPU加速推理框架的轉換過程,更加節省時間。

配備TensorRT的GPU,推理性能最高可達CPU的50倍。

這得益於TensorRT對網絡結構的重構與優化。在精度方面,TensorRT提供INT8和FP16優化,通過降精度推理,在顯著減少應用程序的同時保持高準確度,滿足許多實時服務的需求。

另外,TensorRT還通過融合內核的節點,優化GPU顯存和帶寬的使用,並以更大限度減少顯存佔用,以高效方式重複利用張量內存。

TensorRT和TensorFlow現已緊密集成,Matlab也已通過GPU編碼器實現與TensorRT的集成,能協助工程師和科學家在使用MATLAB時為Jetson、NVIDIA DRIVE和Tesla平台自動生成高性能推理引擎。

TensorRT和Turing架構兩相結合,能提供高達CPU服務器45倍的吞吐量。

智東西認為,深度學習推理需要強大的計算平台,來滿足雲端與終端日益增長的AI處理需求。而一款強大的計算平台不僅需要強大的芯片,還需要完整的生態系統。

通過軟硬件協同作用,NVIDIA TensorRT能在帶來高吞吐量和高能效的同時,實現推理神經網絡的快速優化、驗證和部署,既能降低開發門檻,又能節省服務器成本,使得工程師和科學家更好地專注於深度學習研究,推動各行業智能化升級。