NVIDIA DGX SuperPOD

NVIDIA DGX SuperPOD: Instant Infrastructure for AI Leadership

NVIDIA DGX SuperPOD™是首創的人工智能（AI）超級計算基礎架構，具有突破性的性能，可在數週內作為完全集成的系統進行部署，旨在解決全球最具挑戰性的AI問題。

越來越複雜的AI模型和更大的數據量要求功能強大的超級計算機支持創新所需的迭代速度和訓練時間。

DGX SuperPOD參考架構基於64個DGX-2系統，Mellanox InfiniBand網絡，經DGX POD認證的存儲以及NVIDIA®GPU Cloud（NGC）優化的軟件。

該設計還為計算機房空氣處理器（CRAH）和後門熱交換器（RDHX）設施提供了機械，功率和冷卻選項。

使用由96個DGX-2H系統組成的改良DGX SuperPOD設計，可獲得以下結果：

TO在TOP500 HPL1基準測試中達到9.4 petaFLOPS，使其成為全球第22最快的超級計算機

八項新的MLPerf性能記錄2

可以從某些NVIDIA合作夥伴處購買DGX SuperPOD，並在本地部署或在DGX就緒的數據中心託管合作夥伴中進行部署。

NVIDIA在多個DGX POD中配置了1500多個DGX系統，用於我們的SATURNV深度學習（DL）研究和開發。這對於NVIDIA在自動駕駛汽車，機器人技術，圖形，高級機器人的AI領域實現加速創新至關重要

性能計算（HPC）和其他領域。

NVIDIA DGX SuperPOD

隨著DL網絡和培訓數據的複雜性呈指數增長，人工智能研究人員的計算需求持續增長。過去，培訓通常僅限於工作站中的一個或幾個GPU。今天的培訓通常利用數十，數百甚至數千個GPU來評估和優化不同的模型配置和參數。此外，最複雜的模型需要多個GPU來訓練更快或支持更大的配置。此外，擁有多名AI研究人員的組織需要同時訓練許多模型，這需要大量的計算資源。如此大規模的系統對於AI研究人員而言可能是陌生的，但是傳統上，這些裝置一直是世界上最重要的研究機構和學術界的標誌，推動了推動幾乎所有類型的科學事業的創新。

超級計算世界正在不斷發展，以推動下一次工業革命，這是對重新思考如何將大量計算資源聚集在一起以解決任務關鍵型業務問題的驅動。 NVIDIA開創了一個新時代，企業可以在幾個月甚至幾週內使用標準化組件來部署具有世界紀錄的超級計算機。

在如此規模的設計和建造計算機時，需要了解AI研究人員的計算目標，才能構建快速，功能強大且具有成本效益的系統。發展

基礎設施需求通常可能很困難，因為研究的需求通常是一個不斷變化的目標，而AI模型由於其專有性而常常無法與供應商共享。此外，制定代表組織整體需求的可靠基準是一個耗時的過程。

要在各種模型類型上實現最佳性能，不僅需要大型GPU集群。構建一個能夠在以下位置運行大量DL應用程序的靈活系統

在規模上，組織需要一個平衡良好的系統，該系統至少應包括：

low低延遲，高帶寬，網絡互連，其設計能力和

拓撲以最大程度地減少瓶頸。

可以為各種數據集提供最佳性能的存儲層次結構

結構需求。

可以滿足這些要求，並考慮成本因素以最大化整體價值

通過本文提出的設計。

======

2019年11月22日，加利福尼亞州聖克拉拉– 人工智能（AI）和多雲數據管理的全球領導者DDN今天宣布，它已與NVIDIA合作，將NVIDIA DGX SuperPOD系統的功能與DDN的A 3 I相結合數據管理系統，因此客戶可以以最小的複雜度和較短的時間部署HPC基礎架構。此外，通過利用新的NVIDIA Magnum IO軟件堆棧來優化IO和DDN的並行文件系統，客戶可以將數據科學工作流程加速多達20倍。

NVIDIA Magnum IO軟件套件提高了性能，並減少了在數分鐘而不是數小時內將大量數據從存儲設備移至GPU的延遲。DDN測試已經確認，使用該軟件的NVIDIA GPUDirect Storage功能，最密集的工作流程將獲得顯著改善，並直接使AI和HPC應用程序輸出受益。DDN有望在2020年中期的EXAScaler EXA5版本中支持完整的NVIDIA Magnum IO套件，包括GPUDirect存儲。

DDN首席研究官Sven Oehme表示：“我們非常重視NVIDIA與DDN之間的深度工程聯繫，因為這對我們共同的客戶有直接的好處。” “我們公司渴望突破I / O性能的界限，同時使這些超大型系統的部署變得更加容易。”

在使用DGX SuperPOD進行的測試過程中，DPO本身旨在快速部署超級計算級別的計算，DDN能夠證明其數據管理設備DDN AI400可以在數小時內部署，並且單個設備可以支持需要大量數據的DGX。通過隨著GPU數量一直擴展到80個節點進行擴展來擴展SuperPOD。具有代表深度學習工作負載的各種I / O需求的各種不同深度學習模型的基準測試表明，DDN系統可以使DGXSuperPOD系統保持完全飽和。

NVIDIA DGX Systems副總裁兼總經理Charlie Boyle說：“ DGX SuperPOD旨在在最複雜的AI工作負載上提供世界上最快的性能。“有了DDN和NVIDIA，客戶現在有了一個系統化的解決方案，任何組織都可以在幾週內對其進行部署。”

雖然上面用DGX SuperPOD進行的上述測試是在DDN的AI400上進行的，但DDN自此發布了AI400X。該設備已更新，可提供更好的IOPS和吞吐量，並將隨Mellanox HDR100 InfiniBand連接一起提供，以支持下一代HDR結構。通過這些增強，AI400X設備可以為AI和HPC應用程序提供甚至更好的性能。

關於DDN

DataDirect Networks（DDN）是數據密集型全球組織的全球領先的大數據存儲供應商。20多年來，DDN一直在設計，開發，部署和優化系統，軟件和存儲解決方案，使企業，服務提供商，大學和政府機構能夠在本地獲得更大的價值並加快從其數據和信息洞察的時間。並在雲中。組織利用DDN存儲技術的力量和其團隊深厚的技術專長，以最有效，最可靠和最具成本效益的方式來最大程度地捕獲，存儲，處理，分析，協作和分發數據，信息和內容。DDN的客戶包括許多世界領先的金融服務公司和銀行，醫療保健和生命科學組織，製造和能源公司，政府和研究機構以及網絡和雲服務提供商。有關更多信息，請在Twitter上關注我們：@ddn_limitless，請訪問ddn.com或致電1-800-837-2298。

====

僅3週完成架設，NVIDIA以DGX SuperPOD建造更快的超級電腦系統

除了宣布與Arm合作打造超級電腦消息，NVIDIA也宣布以短短3週時間完成架設，並且將用於加速開發自駕車系統的超級電腦DGX SuperPOD，正式登上全球運算最快電腦排名第22位，而目前日本運算速度最快的超級電腦系統ABCI (AI Bridging Cloud Infrastructure)，目前則是採用NVIDIA GPU Cloud進行深度學習框架運作，藉此推動各類人工智慧技術應用成長。

DGX SuperPOD是以96組NVIDIA DGX-2H (採用Tesla V100 32GB HBM2記憶體版本)，並且搭配NVSwitch與Mellanox互連技術構成，總計連結1536組NVIDIA V100 Tensor Core GPU，形成高達9.4 petaflops運算處理能力，從建造到完成架設僅花費3週時間，並且登上全球運算最快電腦排名第22位，主要用於加快自駕車系統發展使用。

依照NVIDIA說明，DGX SuperPOD約可在2分鐘不到時間內，完成ResNet-50神經網路模型框架的學習訓練，若以2015年提出NVIDIA K80 GPU進行加速的話，大概需要花費25天的訓練時間，相較之下，DGX SuperPOD約可將相同訓練需求的學習速度提高1.8萬倍。

同時基於模組化設計，DGX SuperPOD也能快速、彈性佈署應用在各類企業需求，NVIDIA也同時提出DGX-Ready Data Center計畫，讓有需求的企業單位能以此快速佈署DGX SuperPOD運算資源。

在此次國際超級電腦運算大會中，NVIDIA也宣布由日本經濟產業省指導，透過東京工業大學與富士通研究所在內單位合作建造以雲端為基礎結構的超級電腦平台「ABCI (AI Bridging Cloud Infrastructure)」，其中採用NVIDIA GPU Cloud與NVIDIA Tensor Core GPU在內運算資源，讓各類深度學習框架、機器學習演算法，以及HPC應用程式，可以透過Docker、Singularity在內容器服務運作。

而NVIDIA也將藉由提供NGC Container Replicator，藉此協助系統管理員自動檢查，並且下載最新版本的NGC容器服務內容。

透過NVIDIA GPU Cloud，研究人員將可可藉由「ABCI」平台處理從核物理到製造等領域的人工智慧運算應用需求，或是透過「ABCI」的分散運算能力加快人工智慧訓練速度。

=====

Nvidia以GPU平台訓練BERT-Large自然語言模型，創下53分鐘的新紀錄

今年5月，Google聲稱他們能將訓練BERT-Large模型的時間，從3天縮短到76分鐘。現在Nvidia號稱自家超級運算平台只需要53分鐘，不過，訓練時間會因為不同的節點與GPU數量組合，而有所差異

根據Google今年5月發表的論文，他們宣稱訓練BERT-Large的時間為76分鐘。近期Nvidia更宣布他們的超級運算平台DGX SuperPOD可以縮短到53分鐘。不過，在該平台上訓練BERT-Large的時間，是根據所使用的節點與V100 GPU數量而定，要達到53分鐘的速度，必須仰賴92個DGX-2H 節點與1,472個V100 GPU，若只使用64個節點及1,024個CPU，所需時間為67分鐘，若是16個節點與256個CPU，則得耗上236分鐘。（圖片來／Nvidia，https://devblogs.nvidia.com/training-bert-with-gpus/）

Nvidia本周對外展示該公司超級運算平台Nvidia DGX SuperPOD的新成就，指出該平台刷新了全球紀錄，只花了53分鐘來訓練BERT-Large自然語言模型，也以Nvidia DGX SuperPOD來訓練參數多達83億的GPT-2 8B模型。

BERT的全名為Bidirectional Encoder Representations from Transformers，為Google所打造的自然語言處理預先訓練技術，它的特點在於所預先訓練的資料，並非具備標籤的資料，而是任何純文字，例如它能直接使用英文版維基百科進行訓練，因而可提高準確度，但資料量卻相對龐大。而BERT-Large則是目前最大的BERT模型，具備3.4億個參數。

根據Google在今年5月公布的論文，該公司利用新的LAMB大批量優化技術，與專為機器學習打造的Cloud TPU v3 Pod超級運算平台進行訓練，把BERT-Large的訓練時間，從3天縮短到76分鐘。

而Nvidia的DGX SuperPOD則只花了53分鐘。不過，在該平台上訓練BERT-Large的時間，是根據所使用的節點與V100 GPU數量而定，要達到53分鐘的速度，必須仰賴92個DGX-2H 節點與1,472個V100 GPU，若只使用64個節點及1,024個CPU，所需時間為67分鐘，若是16個節點與256個CPU，則得耗上236分鐘。

有鑑於參數愈多，模型的預測就會愈準確，Nvidia也研究了Google用於翻譯的Transformer機器學習架構，發表了Megatron專案，並將原本只有15億個參數的GPT-2模型擴大到83億個參數，建立了更巨大的GPT-2 8B模型。GPT-2 8B模型的規模是GPT-2的5.6倍，更達到BERT-Large的24倍。

Nvidia同樣利用了DGX SuperPOD來訓練GPT-2 8B，而這也是史上曾被訓練的最大Transformer語言模型。

Nvidia表示，基於Transformer的語言模型與預先訓練都需要強大的運算平台，以處理所有的必要運算並確保執行速度及準確性，這些可在未標記資料集上運作的模型，已成為現代化自然語言處理的創新中心，並將延伸成為新一波智慧助理的重要選擇，以支援牽涉到對話AI的各種應用。

=====

來源:

https://www.nvidia.com/content/dam/en-zz/Solutions/data-center/gated-resources/nvpod-superpod-wp-09549001.pdf

https://www.hpcwire.com/off-the-wire/ddn-works-with-nvidia-to-ease-deployment-for-data-intensive-ai-and-hpc/