NVIDIA DGX-1 人工智慧系統

全球第一款人工智慧超級電腦 NVIDIA DGX-1 人工智慧系統

利用 NVIDIA® DGX-1™ 進行深度學習，可讓您縮短訓練時間、建立更大型模型並獲得更精確的結果。這是全球第一款專為深度學習以及人工智慧加速分析所打造的系統，效能等同 250 台傳統伺服器。此系統具備全面整合的硬體、深度學習應用軟體、開發工具，並可執行常見的加速分析應用程式。這些優勢意味者您可立即縮短資料處理時間、將更多資料視覺化、加速深度學習架構，以及設計更精密複雜的神經網路。

無限運算創造無限商機

NVIDIA DGX-1 是第一款採用創新 NVIDIA Pascal™ 架構的 Tesla® P100 加速器所打造的系統。此系統透過 NVIDIA NVLink™ 實作大幅提升 GPU 記憶體容量，使其充分發揮學習、觀察以及模擬世上萬物的能力，滿足我們對於運算的無限需求。

深入瞭解 NVIDIA Pascal 架構 >

http://www.nvidia.com.tw/object/gpu-architecture-tw.html

分析。視覺化。人工智慧加速

NVIDIA DGX-1 軟體堆疊包含主要深度學習架構、NVIDIA DIGITS™ GPU 訓練系統、NVIDIA 深度學習 SDK (即 CuDNN、NCCL)、NVIDIA Docker、GPU 驅動程式，以及可快速設計深度神經網路 (DNN) 的 NVIDIA CUDA®。這是您加速分析與視覺化應用軟體的理想選擇。

這套強大的系統包含容器建立和部署、系統更新及應用程式儲存機制的雲端管理服務存取。由於結合了可在採用 Tesla 架構的 GPU 上執行這些應用軟體功能等優勢，將其與各類舊版 GPU 加速解決方案的應用程式執行速度相比，速度快上 12 倍。

立即開始使用深度學習 >

https://developer.nvidia.com/deep-learning

加快迭代和創新步調

高效能訓練可加速您的生產力，這表示您可以在更短的時間內創造並推出優異的產品。

將資料轉化為知識

創新的 NVIDIA DGX-1 系統可讓您發掘出隱藏在大量資料集中的模式，並在數小時或數分鐘內提供全新的知識與洞見。

下載產品型錄 >

http://images.nvidia.com/content/technologies/deep-learning/pdf/61681-DB2-Launch-Datasheet-Deep-Learning-Letter-WEB.pdf

保持競爭優勢

由創新技術所設計的 NVIDIA DGX-1，可為深度學習訓練和人工智慧加速分析工作負載提供最快速的解決方案。

參閱圖文說明 >

http://www.nvidia.com.tw/object/dgx1-infographic-tw.html

觀賞網路廣播 >

http://info.nvidianews.com/NVIDIA-DGX-1-webinar.html

徹底發揮投資效用

獲得提升生產力與降低系統停機時間所需的支援。硬體和軟體支援可讓您獲得 NVIDIA 深度學習專業知識，並包含雲端管理服務、應用軟體升級與更新，及重要問題的優先解決方案。

更多內容資訊可以參考NVIDIA網站 http://www.nvidia.com.tw/object/deep-learning-system-tw.html

以及dgx-1知識搜尋：http://ai.easyapi.com/blog/tag?tag=DGX-1

立即訂購 NVIDIA DGX-1

鴻鵠國際股份有限公司

業務窗口蔡先生

行動電話：0910-218-322

公司電話：02-2929-9388 #10

公司傳真：02-2929-7579

Email: sales1@honghutech.com

- - - - NVIDIA宣布推出基於Volta計算性...

- - - - NVIDIA利用基於Volta的全新DGX系統推進人工智能計算革命

- - - - DGX-1 Volta

- - - - 2017-05-12 08:50

- - - 為慶祝DGX-1問世一周年，NVIDIA...

- - - - NVIDIA DGX- 1 ：速度最快的深度學習系統

- - - - NVIDIA DGX-1技術白皮書

- - - - 2017-04-25 22:36

- - - Deep Learning Analys...

- - - - 日本開造世界最強超算：24路NVIDIA DGX-1！(3/8日消息)

- - - - DGX-1

- - - - 2017-04-06 11:26

- - - DGX-1白皮書發布，可上網下載。

- - - - DGX-1白皮書發布，可上網下載。

- - - - DGX-1

- - - - 2017-04-06 11:10

- - DGX-1白皮書
  - 為慶祝DGX-1問世一周年，NVIDIA發布關於DGX-1系統架構的詳盡新技術白皮書。此白皮書深入探討了將DGX-1締造成為深度學習訓練最快平台的各種軟硬件技術。本文將簡要介紹這些技術，但詳情還請閱讀DGX-1白皮書，點擊下方即可查看下載。
  - 下載
  - NVIDIA在一年前宣布推出專為深度學習打造的集成系統NVIDIA®DGX-1™。DGX-1（如圖1所示）具有通過NVLink（NVIDIA的一種高性能GPU互聯技術）在混合數據立方體網格網絡中連接8台Tesla P100 GPU加速器的能力。搭配雙插槽Intel Xeon CPU和4個100 Gb InfiniBand網絡接口卡，DGX-1為深度學習訓練帶來了前所未有的非凡性能。此外，DGX-1系統軟件和功能強大管理庫可以適時調整，以用於擴展Tesla P100 GPU網絡中的深度學習，為有關生產和研究的深度學習應用提供靈活且可擴展的平台。

- - 圖1: NVIDIA DGX-1
  - DGX-1 系統架構
  - DGX-1是一種專為高吞吐量和高互聯帶寬而設計的深度學習系統，以實現神經網絡訓練的最佳性能。該系統的核心是一套與混合立方體網格NVLink網絡拓撲相連的8個Tesla P100GPU的集合體。除了8個GPU外，DGX-1還包括兩個用於啟動、存儲管理和協調深度學習框架的CPU。DGX-1內置於三機架單元箱體中，具有供電、冷卻、聯網、多系統互聯和SSD文件系統緩存等功能，可優化吞吐量和深度學習訓練時間。圖2顯示了DGX-1系統的各部分組件。

- - 圖2︰DGX-1 系統組件
  - NVLink是一種節能高效的高帶寬互聯技術，可支持NVIDIAPascal GPU以每GPU 160 GB/s的雙向總帶寬，連接到節點中的對等GPU或其他設備，其速度約相當於目前PCIe Gen3 x16互聯的五倍。NVLink互聯和DGX-1架構的混合立方體網格GPU網絡拓撲能在8個Tesla P100 GPU之間實現最高帶寬的數據交換。
  - Tesla P100的頁面遷移引擎可在GPU和主機內存之間執行高帶寬、低損耗的數據共享。為了擴展到多節點高性能集群，DGX-1通過InfiniBand（IB）網絡提供了系統之間的高帶寬。
  - NVLink有效擴展深度學習

- - 圖5：DGX-1（弱）擴展結果和性能，使用單個GPU批量大小為64的MicrosoftCognitive Toolkit（CNTK）對ResNet-50神經網絡架構進行訓練。柱狀條表示利用NVLink在DGX-1上進行一台、兩台、四台和八台Tesla P100 GPU之間的通信（淺綠色顯示），與使用八台TeslaP100 GPU和PCIe通信（深綠色顯示）的現有系統進行性能對比的結果。與單個GPU相比，圖中線條呈現加速趨勢。配備8台GPU的NVLink比PCIe的訓練性能超出約1.4倍（1513張圖像/秒與1096張圖像/秒）。測試使用NVIDIA DGX容器版本16.12，通過cuDNN 6.0.5和NCCL 1.6.1處理實際數據，gradbits = 32。
  - 如圖5所示，在將PCIe（樹形拓撲）上的1、2、4和8台GPU的深度學習訓練與DGX-1的8-GPU混合立方體網格NVLink互聯進行比較時，NVLink的優點顯然易見。NVLink在4x和8x測試案例中毫無懸念地更勝一籌。其中，DGX-1以PCIe難以企及的方式聚合了多個NVLink連接，相比PCIe將總體速度提升近1.4倍。較之其他NVLink網絡配置（如：環形拓撲），DGX-1架構的NVLink互聯不僅可以實現比PCIe更好的擴展性，而且NVLink混合立方體網格網絡拓撲更是為深度學習提供了最佳的整體擴展。
  - 面向DGX-1 多系統擴展的無限帶寬
  - 最新計算工作負載的多系統擴展性尤其適用於深度學習，主要依靠系統內外多個GPU之間的強大通信，以支持各個系統的出色GPU性能。除了用於GPU之間高速內部通信的NVLink之外，DGX-1還利用Mellanox ConnectX-4 EDR InfiniBand端口在各系統間提供超大帶寬並減少瓶頸。DGX-1採用的最新無限帶寬標準EDR IB端口可實現以下功能：
  - --每個端口共有8個數據通道，總運行速度為25Gb/s或200 Gb/s（同時包括4個100 Gb/s內通道及4個100 Gb/s外通道）；
  - --低延遲通信和內置原語和集合，以加速涵蓋多個系統的大規模計算；
  - --高性能網絡拓撲支持，可同時實現多個系統之間的數據傳輸，且端口爭用最低；
  - --適用於無限帶寬的NVIDIA GPUDirect RDMA可在多個系統GPU之間直接傳輸。
  - DGX-1擁有四個EDR IB端口，速度達到800 Gb/s（系統內外同時各提供400 Gb/s），以用於構建DGX-1系統的高速集群。四個EDR IB端口將平衡幀內和節點間的帶寬，並在某些案例中完全用於節點間通信。與典型的網絡技術（如：以太網）相比，InfiniBand即使在大型多系統集群中也能提供20倍的帶寬和降低4倍的延遲率（詳見技術白皮書）。
  - 最新的DGX-1多系統集群採用基於胖樹拓撲網絡，以提供單個系統與其它系統之間路由完善的可預測、無爭用通信（參見圖6）。胖樹拓撲是一種呈樹狀結構的網絡拓撲，葉片上的系統通過多個交換機級別連接到中央頂層交換機。胖樹中的每個級別具有提供相等帶寬的相同數量鏈路。胖樹拓撲結構確保了在計算和深度學習應用中常見的全對全或全集合的最高通信平分帶寬和最低延遲。

- - 圖4：DGX-1採用8-GPU混合立方體網格互聯網絡拓撲結構。立方體網狀連接面的各個拐角都連接到PCIe樹網絡，PCIe樹網絡也與CPU和NIC相連。
  - 圖5顯示了DGX-1的深度學習訓練性能和擴展。圖5中的柱狀條表示借助Microsoft Cognitive Toolkit（CNTK），ResNet-50深層神經網絡架構每秒圖像的訓練性能；而線條則代表與單個GPU相比，2、4或8台P100 GPU並行加速的效果。在測試時，每個GPU最小配置為64個圖像。

- - 圖3：Tesla P100 加速器
  - 為實現最大計算密度，DGX-1配備了8台NVIDIA Tesla P100加速器（參見圖3）。當前，PCIe互聯阻礙了許多高度並行GPU的應用擴展。NVLink提供了在深度學習和其他應用程序中，實現良好弱擴展和強擴展所需的通信性能。每個TeslaP100 GPU都具有四個NVLink連接點，每個連接點在20GB/s的峰值帶速下與另一個GPU進行點對點連接。多個NVLink連接可以綁定在一起，從而在一對GPU之間實現多路互聯帶寬。最終，NVLink成就了靈活互聯性，以便在多個GPU之間構建各種網絡拓撲。此外，Pascal還支持16路PCIe 3.0，從而連接DGX-1中的CPU和GPU。PCIe也可用於高速網絡接口卡。
  - 專為DGX-1設計的NVLink網絡拓撲結構旨在優化諸多因素，包括各種點對點和集體通信原語所需的帶寬、高靈活拓撲和具備GPU子集的卓越性能。混合立方體網格拓撲（參見圖4）可被視為一個拐角處設有GPU的立方體，同時所有十二個邊緣都通過NVLink連接，六個面中的兩個面有對角線連接。它也可以被認為是單個NVLink連接的兩個交織環。

- - 圖6︰面向深度學習的124 DGX-1多系統集群示例
  - DGX-1軟件
  - 既有的DGX-1軟件可以大規模地展開深度學習。主要目標在於協助操作者以最少的設置在DGX-1中部署深度學習框架和應用程序。平台軟件的設計原則集中於在服務器上安裝最小的操作系統和驅動，並通過NVIDIA維護的 DGX 容器註冊表在NVIDIADocker容器中提供所有應用和軟件開發工具包。可用於DGX-1的容器包括多個經優化的深度學習框架、NVIDIA DIGITS深度學習訓練應用、第三方加速解決方案和NVIDIA CUDA工具包。圖7顯示了DGX-1深度學習軟件堆棧。

- - 圖7︰DGX-1 深度學習軟件堆棧
  - DGX-1 軟件堆棧包括下列主要組件:
  - --NVIDIA CUDA工具包，詳情請閱讀CUDAToolkit 8.0版本新功能；
  - --NVIDIA Docker是當前流行的Docker集裝箱引擎封裝產品，可透明提供容器，且內含必要組件，用以執行GPU代碼。
  - --NVIDIA 深度學習軟件開發工具包可為設計和部署GPU提供加速的深度學習應用程序提供強大的工具和數據庫。它包括深度學習原語（cuDNN）、知識推理（TensorRT）、視頻分析、線性代數（cuBLAS）和稀疏矩陣（cuSPARSE）等；
  - --NVIDIA集成通信庫（NCCL，發音為“Nickel”）是一個支持拓撲的多GPU集成通信原語庫。面向DGX-1的NVIDIA Docker容器包含一個NCCL版本，可用於優化DGX-1架構中的8-GPU混合立方體網格NVLink網絡集合。
  - --DGX-1深度學習框架，NVIDIA深度學習軟件開發工具包加速了廣泛應用的深度學習框架，如：Caffe、CNTK、MXNet、TensorFlow、Theano和Torch。DGX-1軟件堆棧可為以上框架提供經過優化的集裝箱版本。這些框架包括所有必要的依存關係，均預先構建、經過測試且隨時可以運行。對於需要更大靈活性來建立自定義深學習解決方案的用戶，每個框架集裝箱圖像還包括框架源代碼，以支持自定義修改和增強功能，以及完整的軟件開發棧。
  - DGX-1 實現深度學習的最佳性能
  - DGX-1在訓練流行深層神經網絡的出色性能表現，充分體現了深度學習綜合系統的價值。圖8中的曲線圖顯示，利用Microsoft Cognitive Toolkit、TensorFlow和Torch的ResNet-50和ResNet-152深層神經網絡，與具有相同GPU的現有系統相比，DGX-1的訓練明顯更快了。該圖說明了以下兩大優點：
  - --DGX-1中的P100 GPU相比深度學習的上一代NVIDIA Tesla M40 GPU具有更高吞吐量。
  - --相比通過PCIe互聯的8台Tesla P100 GPU同類系統，DGX-1性能明顯更高。

- - 圖8：採用所有8台Tesla P100s 的DGX-1深度學習訓練與通過PCI-e互聯，基於流行的CNTK（2.0 Beta5）TensorFlow（0.12-dev）和Torch（11-08-16）深度學習框架部署ResNet-50和Resnet-152深層神經網絡架構的8台Tesla M40和Tesla P100系統進行對比。該訓練針對ResNet-50採用32位浮點運算，總批量規模為512位；同時針對ResNet-152的批量規模為128位。其他軟件包括NVIDIADGX容器版本16.12、NCCL 1.6.1、CUDA 8.0.54、cuDNN 6.0.5和Ubuntu 14.04。NVIDIA Linux顯示驅動程序為375.30。8x M40和8x P100 PCIe服務器具有雙英特爾至強Xeon E5-2698v4 CPU和256GB DDR4-2133 RAM（DGX-1具有512GB DDR4-2133）的SMC 4028GR。
  - DGX-1的高性能部分歸功於互聯在8台Tesla P100 GPU之間的NVLink混合立方體網格，但還並不止這些。DGX-1的許多性能優勢源自其是一個集成系統，具有針對深度學習的完整軟件平台。這包括深度學習框架優化，例如NVIDIA Caffe、cuBLAS、cuDNN和其他GPU加速庫中的優化，以及通過NCCL進行的NVLink協調集體通信。該集成軟件平台與Tesla P100和NVLink完美結合，確保DGX-1遠遠優於同類現有系統。
  - NVIDIA DGX-1技術白皮書包含有關DGX-1的系統架構、平台軟件和性能的更多細節。點擊“閱讀原文”馬上查看NVIDIA DGX-1技術白皮書。

Page updated

Report abuse