NVIDIA DGX A100

人工智慧基礎架構通用系統

全球首款以 NVIDIA A100 打造的人工智慧系統

NVIDIA DGX A100 是適用於所有人工智慧工作負載的通用系統,它為全球第一款 5 petaFLOPS 人工智慧系統提供前所未有的運算密度、效能和彈性。NVIDIA DGX A100 搭載全球最先進的加速器 NVIDIA A100 Tensor 核心 GPU 使企業能夠將訓練、推論和分析整合至易於部署的單一人工智慧基礎架構,並支援 NVIDIA 人工智慧專家顧問。

介紹影片:

人工智慧資料中心的重要基石

適用於所有人工智慧工作負載的通用系統

NVIDIA DGX A100 是一套支援分析、訓練和推論的通用系統,適用於所有人工智慧基礎架構。此系統為運算密度樹立新標準,6U 封裝卻蘊含了 5 petaFLOPS 的人工智慧效能,能以適用所有人工智慧工作負載的單一平台,取代舊有的基礎架構孤島。

DGXperts:整合人工智慧專業知識支援

NVIDIA DGXperts 是由超過 14,000 名精通人工智慧技術的專家所組成的全球團隊,以數十年豐富經驗累積協助你將 DGX 產品的投資效益發揮到淋漓盡致。

最快速獲得解決方案

NVIDIA DGX A100 是全球第一個搭載 NVIDIA A100 Tensor 核心 GPU 的系統。系統整合了八個 A100 GPU,提供前所未見的加速能力,且徹底針對 NVIDIA CUDA-X™ 軟體和端對端 NVIDIA 資料中心解決方案堆疊進行最佳化。

無與倫比的資料中心擴充彈性

NVIDIA DGX A100 內建 Mellanox 網路,雙向頻寬峰值高達每秒 450 GB。這是支持 DGX A100 成為大型人工智慧叢集基石的眾多功能之一,例如可擴充人工智慧基礎架構的企業藍圖 NVIDIA DGX SuperPOD™ 即是使用 DGX A100 所打造。

=======

重要新聞蒐集:

黃仁勳的「廚房演講」,熬製的卻是英偉達 GPU 史上最大性能飛躍 極客公園 36氪

黃仁勳從煤氣竈下取出最新GPU:7nm全新安培架構,售價20萬美元,訓練性能頂6張V100 量子位

GTC 2020 | NVIDIA提供全球最先進AI系統NVIDIA DGX A100 NVIDIA 官方帳號 知乎

​Nvidia 新核彈 GA100:AI煉丹師的狂歡 知乎

Tesla A100果然割了一刀 7nm安培完整版128組SMX單元:再強20% ifeng

Nvidia新一代AI超級電腦系統DGX A100亮相,搭載8張全新7奈米GPU加速卡,單臺效能更翻倍可達5 PetaFLOPS iThome

19.9萬美元!NVIDIA發布安培個人超算:八路GPU、雙路AMD 64核心 快科技

==========

GTC 2020 | NVIDIA提供全球最先進AI系統NVIDIA DGX A100

1.一站式訓練、推理、數據分析平臺;

2.每臺系統都極富靈活性,可配置爲1個GPU或多至56個獨立的GPU,

3.軟件定義的數據中心基礎架構

NVIDIA於今日推出了NVIDIA DGX A100,這是全球最先進AI系統的第三代產品,具有高達5Petaflops 的AI性能,並且首次將整個數據中心的性能和功能集成到一個靈活的平臺中。

即刻起,DGX A100系統已開始向全球供應。首批訂單將送往美國能源部(U.S. Department of Energy ,DOE)的阿貢國家實驗室(Argonne National Laboratory)。該實驗室將運用該集羣的AI和計算力來更好地研究和應對COVID-19。

NVIDIA創始人兼首席執行官黃仁勳表示:「NVIDIA DGX A100是專爲先進AI打造的高性能系統。NVIDIA DGX是首個爲端到端機器學習工作流——從數據分析到訓練再到推理構建的AI系統。藉助於全新DGX的巨大性能飛躍,面對呈指數級速度增長的AI模型和數據,機器學習工程師們能夠保持領先。」

DGX A100系統集成了8個全新NVIDIA A100 Tensor Core GPU,具有320GB內存用以訓練最大型的AI數據集,以及最新的高速NVIDIA Mellanox® HDR 200Gbps互連。

利用A100的多實例GPU功能,每臺DGX A100系統能夠被分割爲多達56個實例,用於加速多個小型工作負載的處理速度。憑藉這些功能,企業可在一個完全集成的軟件定義平臺上根據自己的需求優化計算力和資源,加快數據分析、訓練和推理等各種工作負載的速度。

DGX A100的快速普及與客戶的大力支持

多家全球大型企業、服務供應商和政府機構已訂購了前幾批DGX A100。首批系統已於本月早些時候交付給了阿貢國家實驗室。

阿貢國家實驗室計算機、環境和生命科學實驗室副主任Rick Stevens表示:「我們正在使用美國最強大的超級計算機來對抗COVID-19,利用NVIDIA DGX A100等最新技術運行AI模型和模擬。全新DGX A100系統爲阿貢國家實驗室所帶來的計算力將幫助研究人員探索治療方法和研發疫苗、研究病毒的傳播方式,使科學家能夠利用AI加速工作,在數月甚至數日內完成以前需要數年才能完成的工作。」

佛羅里達大學(University of Florida)將成爲美國首所採用DGX A100系統的高等院校。該大學將把DGX A100系統應用於其課程當中,培養具備AI能力的人才。

佛羅里達大學校長Kent Fuchs表示:「佛羅里達大學希望成爲美國人工智能領域的領導者,NVIDIA 是幫助我們實現這一目標的重要合作伙伴。我們的全新NVIDIA DGX A100系統將幫助我們各個學科的研究人員解決一些全球最緊迫的難題,並使得新一代的學生能夠掌握這項將徹底改變未來工作的技能。」

其他早期採用者還包括:

  • 德國漢堡-埃彭多夫大學醫學中心(University Medical Center Hamburg-Eppendorf)的生物醫學人工智能中心—其將使用DGX A100推進臨牀決策支持和流程優化。

  • 朱拉隆功大學(Chulalongkorn University)—泰國頂尖研究型大學,將使用DGX A100加速泰國的創新研究,例如自然語言處理、自動語音識別、計算機視覺和醫學成像等。

  • 德國人工智能研究中心(German Research Center for Artificial Intelligence ,DFKI)將使用DGX A100系統進一步加快其在新型深度學習方法及其可解釋性方面的研究,同時大幅減少空間使用和能耗。

  • Element AI—一家總部位於蒙特利爾的AI解決方案和服務開發商,其正在部署DGX A100,用於加快其Orkestrator GPU調度器的性能、優化功能,以滿足不斷增長的AI訓練和應用需求。

  • Harrison.ai—一家位於悉尼的AI醫療公司,將部署澳大利亞的首批DGX A100系統,用於加快AI醫療設備的開發速度。

  • 阿聯酋人工智能辦公室(The UAE Artificial Intelligence Office)–中東首個部署全新DGX A100的機構。該機構正在建設能夠幫助公共部門和私營機構加快AI研究、開發和應用速度的國家級基礎設施。

  • VinAI Research—位於河內和胡志明市的越南一流AI研究實驗室,將使用DGX A100進行有影響力的研究並加速AI的應用。

目前全球範圍內有數千臺前代DGX系統被全球衆多政府部門和私營企業機構所使用,其中包括一些全球領先的汽車製造商、醫療健康機構、零售商、金融機構和物流公司等。它們正在推動AI在其行業中的發展。

NVIDIA打造新一代DGX SuperPOD ,性能達700 Petaflops

聯絡地址: 23444 新北市 永和區 保生路 1 號 10 F 之 2A

=====

如何看待Nvidia於2020年5月4日發布的全新Ampere GPU A100 (GA100核心)?

Tux ZZ Nothing-to-research Researcher

這次普通FP32性能提升了25%,但是居然冒出來了一個TF32,而且居然是156TFLOPS,上一代的FP32的十倍!來看看這TF是什麼玩意。

聯絡電話:02-2929-9388 Ext.10

傳真:02-2929-7579

NVIDIA還展示了新一代DGX SuperPOD。該集羣由140臺DGX A100系統組成, AI計算能力高達700 Petaflops。利用Mellanox HDR 200Gbps InfiniBand互連技術,NVIDIA將140臺DGX A100系統結合在一起,構建了DGX SuperPOD AI超級計算機,用於公司內部對話式AI、基因組學和自動駕駛等領域的研究。

該集羣是全球速度最快的AI超級計算機之一,其性能相當於此前數千臺服務器的性能。憑藉DGX A100的企業就緒型架構和性能,NVIDIA得以在不到一個月的時間內構建了該系統,而以往交付具備這樣能力的超級計算機需要花費數月甚至數年的時間來計劃和採購專用的組件。

爲幫助客戶構建他們自己的由A100賦能的數據中心,NVIDIA發佈了全新DGX SuperPOD參考架構。該參考架構爲客戶提供了指引藍圖,使客戶能夠參照NVIDIA所採取的設計原則和最佳實踐經驗,構建他們自己的基於DGX A100的AI超級計算集羣。

DGXpert計劃與DGX-Ready軟件

NVIDIA還推出了NVIDIA DGXpert 計劃,幫助DGX客戶與NVIDIA的AI專家建立聯繫;此外還有NVIDIA DGX-Ready 軟件計劃,幫助客戶在AI工作流程中充分利用各種經過認證的企業級軟件。

DGXperts是一羣精通AI的專家。他們可以幫助指導客戶完成從計劃、實施到持續優化的整個AI部署流程,還可以幫助DGX A100客戶構建和維護最先進的AI基礎架構。

NVIDIA DGX-Ready軟件計劃可幫助客戶快速找到和使用經NVIDIA測試的第三方MLOps軟件,幫助客戶提高數據科學生產效率、加速AI工作流程並增加AI基礎架構的可訪問性和利用率。該計劃的首批NVIDIA認證合作伙伴有:Allegro AI、cnvrg.io、Core ScientificDomino Data LabIguazio 和Paperspace

DGX A100 技術規格

  • 8個NVIDIA A100 Tensor Core GPU, AI性能達5Petaflops,GPU內存共320GB, 有着每秒12.4TB的帶寬。

  • 6個採用第三代NVIDIA NVLink® 技術的NVIDIA NVSwitch™互聯結構, 4.8TB每秒的雙向帶寬。

  • 9個Mellanox ConnectX-6 HDR 200Gb/s網絡接口,提供總計每秒3.6TB的雙向帶寬。

  • Mellanox網絡計算和網絡加速引擎,例如RDMA、GPUDirect®,以及SHARP™技術(Scalable Hierarchical Aggregation and Reduction Protocol),實現最高性能和可擴展性。

  • 15TB Gen4 NVMe內存,速度比Gen3 NVMe SSDs快2倍。

  • NVIDIA DGX軟件堆棧,其中包括專爲AI和數據科學工作負載而優化的軟件,能夠實現性能的最大化,使企業能夠更快獲得AI基礎架構投資回報。

一個由5臺DGX A100系統組成的機架可代替一個包括了AI訓練和推理基礎設施的數據中心,而且功耗僅是其1/20,所佔用的空間是其1/25,成本是其1/10。

供應情況

NVIDIA DGX A100系統售價199,000美元起,並現已通過NVIDIA全球合作伙伴網絡經銷商開始供貨。DDN Storage、Dell Technologies、IBM、NetApp、Pure Storage和Vast等存儲技術供應商也計劃將DGX A100集成到其產品當中,包括其各自基於NVIDIA DGX POD和DGX SuperPOD參考架構推出的產品。

NVIDIA DGX-Ready數據中心合作伙伴在26個國家/地區的超過122個站點提供主機託管服務,爲尋求高性價比設施的客戶管理他們的DGX基礎架構。通過此項服務,客戶能夠在這些經過驗證的世界一流數據中心設施內存放並訪問DGX A100基礎架構。

敬請訪問www.nvidia.com/DGX-A100瞭解更多信息,包括詳細的技術規格和訂購信息。

聯絡人:蔡先生 C.M. Tsai 行動電話:0910-218-322 Line ID: tsaicm1011 wechat 微信ID: tsaicm

電子信箱:sales1@honghutech.com

也就是說,TF32就是一個指數位(能表示的數字範圍)8位和FP32一樣;尾數位(有效數字)10位和FP16一樣的東西,總共19位。

眾所周知,FP16煉丹的時候常常會因為指數位不夠而出現過大/過小的數字表示不了的問題,訓練的時候梯度中出現這種情況會嚴重影響訓練精度。所以顯然,問題出在能表示的範圍上,也就是指數位不夠的問題。在之前的架構中,老黃通過幾種手段緩解這個問題

1.Loss scale:梯度不經常有特別小,fp16表示不了而變成0的數字麼。好,那我訓練的時候把loss放大,梯度也會因此跟著被放大,因此那些本來因為過小而表示不了的數字就可以表示了,最後更新權重的時候再縮放回去,開心訓練。

2.混合精度訓練:Tensor Core有個功能是兩個FP16運算得到一個FP32的結果,所以我們把網絡權重用FP32保存,推斷和梯度回傳用FP16。同時我們把一些沒法用FP16推斷的層(比如各種NormLayer)用FP32計算,以此來保證精度。

3.推斷使用BF16甚至更低精度:推斷對精度要求就低的多了,甚至布爾異或都能跑。

然而你以為這些就是銀彈了?naive!

Loss scale雖然能解決梯度數值太小的問題,但是對於梯度動態範圍(最大數字和最小數字的距離)過大的情況就沒法解決了,縮放大了上溢,小了又下溢,除了改結構沒轍。而混合精度訓練對節約顯存沒有幫助,加速比也不是非常理想。而BF16和INT8等數據類型的精度完全滿足不了訓練,甚至一些生成類的任務上都有問題。

要是有個動態範圍和FP32一樣,精度也像FP16那樣剛好夠用的數據結構就好了。

BOOM!現在有了TF32數據結構,只需三分鐘,就可以像混合精度一樣,達到令人滿意的運算精度。和FP16比,它動態範圍寬;和BF16比,它精度高;和FP32比,它省晶圓速度快。簡直是煉丹人士的福音!

再配上40G顯存,還有可怕的1.5T帶寬,還有什麼是一顆核彈解決不了的?如果有,給我上DGX-3啊!老黃牛逼!我要是有錢,我已經要買一塊……不,十塊!

可惜我沒錢,只能等甜品卡了,不求八百平核心,只求顯存多切點。

哎呀蘇媽你努努力啊,我已經預料到我買不起老黃家的卡了,蘇媽,蘇……你別走啊,蘇媽!

======

剛剛,NVIDIA(英偉達)年度黑科技秀GTC 2020大會通過在線視頻的方式舉辦,被粉絲們親切稱呼為老黃的NVIDIA創始人兼CEO黃仁勳發表主題演講。

只不過這回演講的背景不再是科技感十足的大屏幕,而是變成了頗有親切感的廚房。

此次老黃密集拋出20項重磅新消息,從一個全新GPU架構開始,到全新GPU、全新AI系統、全新AI集群、全新邊緣AI產品……每個新品的性能都非常兇殘,每秒千萬億次浮點運算(PFLOPS)單位被反复提及!

上一次NVIDIA發布“地表最強AI芯片” Tesla V100還是在2017年,儘管過去三年不斷有對手放話稱性能超越V100,迄今V100仍是最頻繁出現在各家云端AI芯片PPT上的公認性能標杆。而今天推出的一系列AI產品,是NVIDIA憋了三年的超級核彈!千呼萬喚始出來的安培架構、最大7nm芯片、最先進的Mellanox網絡技術、進化的特定軟件平台…… NVIDIA狂出一套組合拳,秀出NVIDIA迄今為止最大的性能飛躍。

遺憾的是,由於疫情的原因,這次GTC大會“老黃”得不到現場觀眾熱情的歡呼捧場了。

接下來閒話不多說,讓我們來看看老黃釋放了哪些重磅乾貨:

1、發布第8代GPU架構——安培GPU架構。

2、發布首款基於安培架構的7nm GPU——NVIDIA A100 GPU,包含超過540億個晶體管,AI訓練峰值算力312TFLOPS, AI推理峰值算力1248TOPS,均較上一代Volta架構GPU提升20倍。

3、發布全球最強AI和HPC服務器平台HGX A100,最大可組成AI算力達10PFLOPS的超大型8-GPU服務器。

4、發布全球最先進的AI系統——NVIDIA DGX A100系統,單節點AI算力達到創紀錄的5 PFLOPS,5個DGX A100系統組成的一個機架,算力可媲美一個AI數據中心。

5、發布由140個DGX A100系統組成的DGX SuperPOD集群,AI算力最高可達700 PFLOPS。

6、發布新DGX SuperPOD參考架構,幫助客戶自身建立基於A100的數據中心。

7、宣佈業界首個為2 5G優化的安全智能網卡(SmartNIC)。

8、發布首款基於NVIDIA安培架構的邊緣AI產品——大型商用現貨服務器EGX A100。

9、發布世界上最小的用於微型邊緣服務器和邊緣AIoT盒的最強AI超級計算機——EGX Jetson Xavier NX。

10、發布Jetson Xavier NX開發者工具包,包含雲原生支持,該支持可擴展到整個Jetson自主機器的邊緣計算產品線。

11、與開源社區合作加速數據分析平台Apache Spark 3.0,可將訓練性能提高7倍。

12、 NVIDIA Jarvis提供多模態會話AI服務,簡化了定製版會話AI服務的構建。

13、發布用於深度推薦系統的應用框架NVIDIA Merlin。

14、展示NVIDIA Clara醫療平台的突破性成就和生態擴展,幫醫療研究人員更快應對疫情。

15、開放式協作設計平台NVIDIA Omniverse現已可供AEC市場的早期體驗客戶使用。

16、聯手寶馬,基於NVIDIA Isaac機器人平台打造提高汽車工廠物流效率的物流機器人。

17、小鵬汽車新款P7智能電動汽車及下一代生產車型中擬使用NVIDIA DRIVE AGX平台。

18、小馬智行將在其自動駕駛Robotaxi車隊中使用NVIDIA DRIVE AGX Pegasus平台。

19、 Canoo選擇在下一代電動汽車中部署NVIDIA DRIVE AGX Xavier平台。

20、法拉第未來將在其旗艦超豪華FF 91電動車上部署NVIDIA DRIVE AGX Xavier平台。

下面來看這20處新訊具體有哪些亮點。

▲NVIDIA計算卡進化歷程

一、安培新卡:一統訓練、推理和數據分析!

NVIDIA基於安培(Ampere)架構的新一代數據中心GPU—— NVIDIA A100 GPU是一個通用的工作負載加速器,也為數據分析、科學計算和雲圖形而設計,正在全面投產並向全球客戶發貨。

A100利用了英偉達安培架構的設計突破——成為首個內置彈性計算技術的多實例GPU,提供了NVIDIA迄今為止最大的性能飛躍——統一了數據分析、訓練和推理,將AI訓練和推理性能提高到上一代的20倍,將HPC性能提升到上一代的2.5倍。

▲NVIDIA A100 GPU

黃仁勳介紹說,這是第一次能在一個平台上實現加速工作負載的橫向擴展(scale out)和縱向擴展(scale up)。“NVIDIA A100將同時提高吞吐量和降低數據中心的成本。”

1、A100的五大技術突破

(1)安培架構: A100的核心是英偉達安培GPU架構,面積為826mm²,包含540億個晶體管,是世界上最大的7nm處理器。

▲NVIDIA A100的訓練、推理和數據分析性能比較

(2)第三代張量核心與TF32: NVIDIA第三代張量核心(Tensor Core)更加靈活、更快、更容易使用。其擴展功能包括面向AI的新數學格式TF32,無任何代碼更改,可將單精度浮點計算峰值提升至上一代的20倍。此外,張量核現已支持FP64,為HPC應用提供了比上一代多2.5倍的算力。

▲TF32擁有與FP32相同的8個指數位(範圍)、與FP16相同的10個尾數位(精度)

(3)多實例GPU(MIG):可以將一個A100 GPU分割成多達7個獨立的GPU實例,從而為不同大小的任務提供不同程度的計算,提高利用率和投資回報。

(4)第三代NVIDIA NVLink互聯技術:使GPU之間的高速連接加倍,可將多個A100 GPU連成一個巨型GPU來運行,從而在服務器上提供高效的性能擴展。GPU到GPU的帶寬為600GB/s。

(5)結構稀疏性:這種新的效率技術利用了AI數學固有的稀疏性,對稀疏AI張量Ops進行優化,將性能提高了一倍,支持TF32、FP16、BFLOAT16、INT8和INT4。

這些新特性一組合,NVIDIA A100就化身多面手,無論是會話AI、推薦系統等AI訓練與推理,還是地震建模、科學模擬等數據分析,A100都將是高要求工作負載的理想選擇。

例如在運行谷歌自然語言處理模型BERT時,A100將訓練性能提升至上一代V100的6倍,推理性能提升至V100的7倍。

2、軟件堆棧更新,落地正進行時硬件升級,軟件堆棧也隨之更新。NVIDIA宣布的軟件更新內容包括:50多個用於加速圖形、模擬和人工智能的CUDA-X庫的新版本,CUDA 11,多模態會話AI服務框架Jarvis,深度推薦應用框架Merlin,還有能幫助HPC開發人員調試和優化A100代碼的NVIDIA HPC SDK。

A100正被多家世界領先的廠商整合到產品或服務中。其中既包括亞馬遜AWS、微軟Azure、阿里雲、百度雲、谷歌云、甲骨文等雲服務提供商,也包括Atos、思科、戴爾、富士通、技嘉科技、H3C、惠普、浪潮、聯想、微軟Azure、廣達/QCT、超微等全球領先的系統製造商。美國印第安納大學、德國卡爾斯魯厄理工學院、德國馬克斯·普朗克計算和數據中心等高校和研究機構也是A100的早期採用者。

3、HGX A100服務器構建塊:加速服務器開發為了幫助加速來自合作夥伴的服務器開發,NVIDIA打造了超大型數據中心加速器HGX A100——一個以多GPU配置的集成底板形式出現的服務器構建塊。

▲NVIDIA HGX A100

4-GPU HGX A100提供了GPU與NVLink之間的完全互聯,而8-GPU配置通過NVSwitch提供了GPU到GPU的全帶寬。

HGX A100採用了新的多實例GPU架構,可配置為56個小型GPU,每個GPU都比NVIDIA T4快,最大可組成一個擁有AI算力達10 PFLOPS的巨型8-GPU服務器。

二、全球最先進AI系統:一個機架比肩整個AI數據中心

老黃亮出的第二個大招,是全球最先進的AI系統 ——NVIDIA第三代AI系統DGX A100系統,它被稱之為“推進AI的終極工具 ”。

▲NVIDIA DGX A100系統

1、單節點AI算力達5PFLOPS

NVIDIA DGX A100系統將訓練、推理、數據分析統一於一個平台,這是世界上第一台單節點AI算力達到5 PFLOPS的服務器,首次在一個單一、靈活的平台上提供整個數據中心的功率和性能。 每個DGX A100系統內部集成了8個NVIDIA A100 GPU和320GB內存。借助A100多實例GPU特性,每個系統可配置1到56個獨立的GPU實例,從而交付靈活的、軟件定義的數據中心基礎設施。

現場老黃算了一筆賬,一個典型的AI數據中心有50個DGX-1系統用於AI訓練,600個CPU系統用於AI推理,需用25個機架,消耗630kW功率,成本逾1100萬美元。

而完成同樣的工作,一個由5個DGX A100系統組成的機架,達到相同的性能要求,只用1個機架,消耗28kW功率,花費約100萬美元。

這樣一算,正應了老黃那句名言“買的越多,省的越多”,DGX A100系統用一個機架,就能以1/10的成本、1/20的功率、1/25的空間取代一整個AI數據中心。

▲NVIDIA DGX A100系統與AI數據中心參數比較

DGX A100系統由NVIDIA DGX軟件棧提供支持,其中包括針對AI和數據科學工作負載的優化軟件,支持加速Spark 3.0、RAPIDS、Triton、TensorFlow、PyTorch等,使企業在AI基礎設施上的投資獲得更快的回報。

結合這些功能,企業可以在一個完全集成的、軟件定義的平台上優化算力和按需資源,以加速數據分析、訓練和推理等不同工作負載。

2、首批系統已交付,用於抗擊新冠肺炎

DGX A100系統起價19.9萬美元,已經開始在全球範圍內交付,現可從NVIDIA及其已認證的合作夥伴處獲取。

第一批DGX A100系統於本月早些時候交付給美國阿貢國家實驗室(Argonne National Laboratory),用於加速COVID-19研究。

▲安裝在阿貢國家實驗室的NVIDIA DGX A100系統

“新型DGX A100系統的計算能力,將幫助研究人員探索治療方法和疫苗,並研究病毒的傳播,使科學家能夠在數月或數天內完成此前需要花費多年的AI加速工作。 ”阿貢計算機、環境和生命科學實驗室副主任Rick Stevens說。

此外,多家全球大公司、服務提供商和政府機構已為DGX A100下了初始訂單。

例如存儲技術供應商DDN存儲、戴爾、IBM、NetApp、Pure Storage和Vast均計劃將DGX A100集成到他們的產品中,包括基於NVIDIA DGX POD和DGX SuperPOD參考架構的產品。

3、最快AI超算登場!AI算力達700PFLOPS

老黃還發布了新一代DGX SuperPOD集群,它由140個DGX A100系統與NVIDIA Mellanox 200Gbps InfiniBand互連技術提供動力AI算力達700 PFLOPS,實現了以前需要數千台服務器才能達到的性能水平,相當於世界上最快的20台AI超級計算機之一。

▲NVIDIA DGX SuperPOD

DGX A100的企業就緒型架構和性能,使得NVIDIA 只用一個月就可以構建系統,而不是像以前那樣需要數月或數年的時間來計劃和採購專門的組件以交付這些超級計算能力。

NVIDIA也在擴展自己的超算SATURNV。此前SATURNV包含1800個DGX系統,算力最高為1.8 ExaFLOPS。如今NVIDIA在SATURNV新增4個DGX SuperPOD,SATURNV的總算力峰值增至4.6 ExaFLOPS。

為了幫助客戶自身建立基於A100的數據中心,NVIDIA 發布了一個新的DGX SuperPOD參考架構。它為客戶提供了一份藍圖,該藍圖遵循英偉達用於構建基於DGX A100的AI超級計算集群的設計原則和最佳實踐。

4、服務到家!專家指導,軟件就緒

NVIDIA還推出了NVIDIA DGXpert計劃,將DGX客戶與公司的AI專家聚集在一起。

DGXpert是精通AI的專家,可以幫助指導客戶進行從計劃到實現再到持續優化的AI部署,可幫助DGX A100客戶建立和維護最先進的AI基礎設施。

NVIDIA DGX-ready軟件程序幫助DGX客戶快速識別並利用NVIDIA測試的第三方MLOps軟件,幫助他們提高數據科學生產力,加速AI工作流程,並改善可訪問性和AI基礎設施的利用性。

NVIDIA認證的第一個項目合作夥伴是Allegro AI、http:// cnvrg.io、Core Scientific、Domino Data Lab、Iguazio和Paperspace。

三、業界首個為25Gb/s優化的安全智能網卡

NVIDIA還發布了一款安全高效的以太網智能網卡Mellanox ConnectX-6 Lx SmartNIC,它是業界首個為25Gb/s優化的安全智能網卡,用於加速雲計算和企業工作負載。

ConnectX-6 Lx是ConnectX家族的第11代產品,目前正在進行採樣,預計將在2020年第三季度實現全面可用。

▲NVIDIA Mellanox ConnectX 6 Lx智能網卡

新SmartNIC通過利用軟件定義、硬件加速的引擎來擴展加速計算,從CPU上卸載更多的安全和網絡處理。

25Gb/s的連接正在成為處理企業應用程序、AI和實時分析等高要求工作流的標準。此次發布的Mellanox ConnectX-6 Lx智能網卡可提供兩個25Gb/s端口或一個50Gb/s端口,其以太網與PCIe Gen 3.0/4.0 x8主機連接。

ConnectX-6具備IPsec內置加密加速、信任硬件根等加速安全特性,以及10倍的連接跟踪性能改進,使整個數據中心實現零信任安全。

該智能網卡還支持GPUDirect RDMA加速跨網絡傳輸NVMe(NVMe-of)存儲,進而橫向擴展加速計算和高速視頻傳輸應用;並具備Zero Touch RoCE(ZTR)技術,無需配置開關即可獲得一流的RoCE,進而實現可擴展、易於部署的網絡特性。

除了上述功能外,ConnectX-6也通過內置虛擬化和容器化的SR-IOV和VirtIO硬件卸載,提供加速交換和包處理(ASAP2),用於加速下一代防火牆服務的軟件定義網絡和連接跟踪。

與ConnectX家族的所有產品相同,Mellanox ConnectX-6 Lx與Mellanox SmartNIC軟件兼容。與Mellanox Spectrum開關和LinkX系列電纜和收發器一起,ConnectX SmartNIC為高性能網絡提供了最全面的端到端解決方案。

四、 EGX邊緣AI平台:將實時AI帶入傳統行業

老黃還宣布兩款強大的EGX Edge AI平台產品——大型商用現貨服務器EGX A100和微型邊緣服務器EGX Jetson Xavier NX,將強大的實時雲計算能力帶到邊緣。

黃仁勳認為,物聯網(IoT)和AI的融合開啟了“智能一切”革命,NVIDIA EGX邊緣AI平台將標準服務器轉變為一個小型雲原生的、安全的AI數據中心,基於其AI應用框架,公司可以構建從智能零售、機器人工廠到自動化呼叫中心的智能服務。

▲NVIDIA EGX邊緣AI平台

NVIDIA EGX A100是首款基於NVIDIA安培架構的邊緣AI產品,安培架構GPU為其提供了第三代張量核心和新的安全特性,該產品將在今年年底上市

通過搭載NVIDIA Mellanox ConnectX-6 Dx SmartNIC技術,EGX A100可以接收高達200Gbps的數據,並將其直接發送到GPU內存進行AI或5G信號處理,兼顧安全性和閃電般快速的網絡功能。作為一個雲原生的、軟件定義的加速器,EGX A100可以處理5G中對延遲最敏感的用例。這為製造、零售、電信、醫療等行業做出智能實時決策提供了高效的AI和5G平台。

▲NVIDIA EGX A100

EGX Jetson Xavier NX是世界上最小、最強大的用於微服務器和邊緣AIoT盒子的AI超級計算機。

EGX Jetson Xavier NX將NVIDIA Xavier SoC芯片的強大功能集成到一個信用卡大小的模塊中,該模塊具有服務器級的性能,15W功耗限制下最多可提供21TOPS的算力,10W功耗限制下最多可提供14TOPS的算力。

通過運行EGX雲原生軟件棧,EGX Jetson Xavier NX可快速處理來自多個高分辨率傳感器的流數據。

這為受到尺寸、重量、功率預算或成本限制的嵌入式邊緣計算設備打開了大門,目前已提供給希望創建大容量生產邊緣系統的公司,有來自生態系統合作夥伴的20多個解決方案。

▲EGX Jetson Xavier NX微邊緣服務器

兩款產品為滿足不同的大小、成本和性能需求而創建的。比如,EGX A100可管理機場的數百台攝像頭,而EGX Jetson Xavier NX的設計目標是管理便利店的少數攝像頭。

Jetson Xavier NX開發工具包和Jetson Xavier NX模塊現可通過英偉達的分銷渠道購買,售價399美元。

//Jetson XAVIER NX開發板 NTD$13300/每套 (現貨供應中) 訂購網址 https://forms.gle/sMzEpjoiY1YSDNbv6

在麻省理工學院(MIT)航空航天副教授Sertac Karaman看來,擁有云原生支持的Jetson平台是一項重要的新開發,有助於構建和部署未來幾代自主機器。

EGX邊緣AI平台的雲原生架構允許其運行集裝化軟件,確保整個EGX系列可以使用相同的優化AI軟件,以輕鬆構建和部署AI應用程序。

NVIDIA的應用框架包括用於醫療的Clara、用於電信5G的Aerial、用於會話AI的Jarvis、用於機器人技術的Isaac,以及用於智能城市、零售、交通等的Metropolis。這些平台可以一起使用,也可以單獨使用,為各種邊緣用例開闢了新的可能性。

基於雲原生支持,智能機器製造商和AI應用程序開發人員可以在針對機器人、智能城市、醫療保健、工業物聯網等領域的嵌入式和邊緣設備上,構建和部署高質量、軟件定義的功能。

現有使用NVIDIA EGX軟件的邊緣服務器,可從Atos、戴爾、富士通、千兆、惠普、技嘉、IBM、浪潮、聯想、廣達/QCT和超微等全球企業計算供應商處獲得,也可從Advantech和ADLINK等主流服務器和物聯網系統製造商處獲得。

五、當今世界上最重要的應用,四類軟件更新擴展

根據老黃的演講,NVIDIA GPU將為主要軟件應用提供支持,重點加速四大關鍵應用:管理大數據、創建推薦系統、構建會話AI、進化AI醫療算法。

1、加速數據分析平台Apache Spark 3.0

為了幫更多機構趕上機器學習的浪潮,NVIDIA正與開源社區合作,將端到端的GPU加速引入有50多萬數據科學家在使用的數據分析平台Apache Spark 3.0 。老黃將該平台描述為“當今世界上最重要的應用之一”。

基於RAPIDS,Spark 3.0突破了提取、轉換和加載數據的性能基準,支持跨整個數據科學管道的高性能數據分析,加速了從數據湖到模型訓練的數万兆字節的數據,而無需更改運行在本地及雲端Spark應用的現有代碼。

▲NVIDIA Spark 3.0

這將是首次把GPU加速應用於使用SQL數據庫操作廣泛執行的ETL數據處理工作負載,也是AI模型訓練第一次能在同一個Spark集群上加速數據準備和模型訓練,而不是將工作負載作為單獨的進程在單獨的基礎設施上運行。

Spark 3.0的性能提升,使得每天處理TB級的新數據成為可能,使科學家能用更大的數據集訓練模型,並更頻繁地重新訓練模型,從而提高了模型的準確性,並節約大量成本。

Adobe是首批在Databricks上運行Spark 3.0預覽版的公司之一。在最初的測試中,它的訓練性能提高了7倍,節省了90%的成本。

此外,老黃還宣布,亞馬遜SageMaker、Azure機器學習、Databricks、谷歌云AI和谷歌云Dataproc等關鍵的雲分析平台都將由NVIDIA提供加速。

Spark 3.0預覽版現可從Apache Software Foundation獲得,預計在未來幾個月發布。

2、發布構建推薦系統的端到端框架Merlin

NVIDIA Merlin是一個用於構建下一代推薦系統的端到端框架,它正迅速成為更加個性化的互聯網的引擎。

老黃說,Merlin將從100tb數據集創建推薦系統所需的時間從4天縮短到了20分鐘。

基於深度學習的推薦系統正在推動阿里巴巴、亞馬遜、百度等互聯網巨頭的增長。但要打造持續優化的推薦系統,需要更多查詢、更快的速度、在基礎設施上投入更多的資金,以跟上不斷膨脹的數據量。

而在NVIDIA Merlin推薦應用框架發布後,推薦系統不再是科技巨頭的專利,其他人同樣能便捷地採集數據、訓練和部署GPU加速的推薦系統。

這些系統將可利用最新NVIDIA A100 GPU,比以往更快更經濟地構建推薦系統。

3、簡化最先進的會話AI構建

NVIDIA Jarvis是一個用於創建實時、多模態會話AI的端到端平台,包含NVIDIA最大的自然語言理解模型Megatron BERT等先進深度學習模型,其應用框架簡化了最先進會話AI服務的構建。

在演講期間,老黃演示了他與一個友好的AI系統Misty的互動,Misty能實時理解並回答一系列複雜的天氣問題。

虛擬助手和聊天機器人的發展正推動會話AI市場的快速增長。IDC預計,到2023年,自動客戶服務代理和數字助理等AI會話用例的全球支出將從2019年的58億美元增長到138億美元,複合年增長率為24%。

Jarvis提供了一個完整的GPU加速的軟件堆棧和工具,使開發人員可以輕鬆地創建、部署和運行端到端實時的定製版會話AI應用。這些應用可以理解每個公司及其客戶的獨特術語。

▲NVIDIA Jarvis

使用Jarvis構建的應用程序可以利用新NVIDIA A100 Tensor Core GPU在AI計算方面的創新和NVIDIA TensorRT中用於推理的最新優化。

據悉,這是第一次可以使用最強大的視覺和語音模型來運行整個多模態應用程序,比實時交互所需的300毫秒閾值還要快。

第一批使用基於Jarvis的會話AI產品和服務為客戶提供服務的公司包括提供呼叫服務AI虛擬代理的Voca、面向金融和商業的自動語音轉錄的Kensho,以及用於預約安排的AI虛擬助手Square。

4、NVIDIA Clara醫療平台擴展生態合作夥伴

面向醫療領域,老黃公佈NVIDIA Clara醫療平台的最新突破性成就,並宣布擴展其全球醫療合作夥伴,以幫助醫學界更好地跟踪、測試和治療COVID- 19。

1)打破記錄的基因組測序速度: NVIDIA Clara Parabricks計算基因組軟件,實現了一項新的速度記錄,在20分鐘內分析整個人類基因組DNA序列,使得研究人員對病人對疾病的易感性、疾病的進展和對治療的反應有了更深入的了解。

(2)疾病檢測AI模型:這是與美國國立衛生研究院(National Institutes of Health)聯合開發了一款AI模型,能幫助研究人員通過胸部CT掃描檢測和研究COVID-19感染的嚴重程度,並開發新的工具來更好地理解、測量和檢測感染。這些模型可即刻在最新發布的Clara成像技術中獲得。

▲基於NVIDIA Clara COVID-19 AI分類模型的肺部影像

(3)醫院智能化:NVIDIA Clara Guardian智能醫院推出了NVIDIA Clara Guardian智能視頻分析和自動語音識別技術,通過將日常傳感器轉換為智能傳感器,提供自動體溫檢測、面罩檢測、安全社交隔離和遠程患者監測等關鍵用例,新一代的智能醫院可以執行生命體徵監測,同時限制工作人員接觸。

整個生態系統的合作夥伴正在使用預訓練的模型和遷移學習,來開發和部署融合視覺、語音和自然語言處理的AI應用程序。使用NVIDIA EGX AI Edge平台進行部署,使解決方案供應商能夠在整個醫院環境中安全地部署和管理大量設備。

該生態系統有數十個解決方案合作夥伴,已在全球超過50家醫院和10000間病房部署基於NVIDIA Clara Guardian的解決方案。

5、支持遠程設計協作的Omniverse

在今天的主題演講中,老黃宣布計算機圖形和仿真平台NVIDIA Omniverse現已可供AEC市場的早期訪問(early access)客戶使用。

它是一個開放式設計協作平台,允許不同設計師用不同工具在不同的地方,無縫協作完成同一設計項目的不同部分。

老黃還在演示了Omniverse高光仿真和實時GPU渲染的更新,以及來自不同行業的客戶如何使用Omniverse的早期測試版本。

現在購買AEC的RTX服務器配置的客戶可以使用Omniverse early access程序,有能力成為Omniverse AEC體驗項目的一部分。

六、聯手寶馬!重新定義工廠物流

NVIDIA也在繼續推進其NVIDIA Isaac軟件定義的機器人平台,宣布寶馬集團已選擇NVIDIA Isaac,通過打造基於先進AI計算和可視化技術的物流機器人,提高其汽車工廠物流效率,以更快更有效地生產定製配置的汽車。

一旦開發完成,該系統將部署到寶馬集團的全球工廠。

▲基於NVIDIA EGX的Issac機器人工廠和Aerial軟件開發工具包

寶馬集團在全球的工廠每56秒生產一輛新車,有40種不同的車型,寶馬集團的供應鏈由來自世界各地數千家供應商的數百萬個零部件生產而成,涉及23萬個零件號,且99%的客戶訂單彼此之間具有獨特的區別。這些給工廠物流帶來了巨大的挑戰。

為了優化物流,自動AI驅動的物流機器人現在協助當前的生產流程,以便在同一條生產線上組裝高度定制的車輛。

NVIDIA Isaac機器人平台包括Isaac SDK、Isaac Sim、AGX和DGX,各組件一起協作來設計、開發、測試、計劃和部署寶馬製造工廠的物流機器人。

寶馬集團借助NVIDIA Isaac機器人平台開發出5個支持AI的機器人,以改進其物流工作流程,其中包括自動運輸材料的導航機器人、選擇和組織零件的操作機器人。

這些機器人經由真實和合成數據進行訓練,使用NVIDIA GPU在各種光線和遮擋條件下渲染光線追踪機器部件,以增強真實數據。然後用真實和合成的數據在NVIDIA DGX系統上訓練深度神經網絡。

整個過程由高性能NVIDIA Jetson AGX Xavier和EGX邊緣計算機提供動力。在NVIDIA Omniverse平台上,這些機器人將在NVIDIA Isaac模擬器上連續進行導航和操作測試,來自不同地理位置的多名寶馬團隊人員都可以在一個模擬環境中工作。

▲NVIDIA Isaac平台在寶馬工廠同步工作

寶馬加入了龐大的NVIDIA機器人全球生態系統,涵蓋送貨服務、零售、自主移動機器人、農業、服務、物流、製造和醫療。

老黃相信,未來工廠將變成巨大的機器人,每個批量生產的產品都將是定制的。

七、NVIDIA的五個自動駕駛新夥伴

老黃說,自動駕駛汽車是我們這個時代面臨的最大的計算挑戰之一,對此NVIDIA正著力推進NVIDIA DRIVE平台。

NVIDIA DRIVE將使用新的Orin SoC和嵌入式NVIDIA安培GPU,以實現能源效率和性能,為前擋風玻璃提供5瓦的ADAS系統,並將規模擴大到2000TOPS、L5級Robotaxi系統。

根據今天新公佈內容,中國電動汽車製造商小鵬汽車新推出的P7智能電動車及下一代生產車型、美國電動汽車新創企業Canoo的下一代電動汽車、法拉利未來的旗艦超豪華FF 91電動車,都計劃採用NVIDIA DRIVE AGX Xavier平台。

NVIDIA Xavier是世界上第一個為自動駕駛設計的處理器,可提供30TOPS算力,同時只消耗30W的功率,且滿足當今嚴格的安全標準和監管要求。自動分級的Xavier SoC現已投入生產,基於安全架構,集成了六種不同類型的處理器,用於運行AI、傳感器處理、地圖繪製和駕駛的不同算法。由於小鵬汽車與Xavier平台具有很強的架構兼容性,小鵬汽車也在積極探索將NVIDIA Orin平台應用於未來一代智能電動汽車的潛在機會。

NVIDIA Orin是世界上性能最高、最先進的自動車輛和機器人SoC,算力可達200TOPS,同時也能夠縮小到入門級ADAS/Level 2用例,功耗低至5W。

▲NVIDIA Orin SoC

此外,中國自動駕駛技術公司小馬智行(Pony.AI)也將在其自動駕駛移動出行Robotaxi車隊中部署NVIDIA DRIVE AGX Pegasus自動駕駛平台。

DRIVE AGX Pegasus採用安全的架構,算力達320TOPS,集成了2個NVIDIA Xavier SoC和2個NVIDIA圖靈張量核心GPU。

下一代NVIDIA Drive Robotaxi解決方案擬集成2個Orin SoC、2個安培GPU,算力提升6倍至2000TOPS,能效提升4倍。

老黃說:“現在汽車製造商可以利用整個車隊的軟件開發,用一種架構開發整個車隊。” NVIDIA DRIVE生態系統現在包括汽車、卡車、L1級汽車供應商、下一代移動服務商、初創公司、地圖服務商等。

此外,老黃還宣布英偉達將把NVIDIA DRIVE RC添加到其驅動技術套件中,用於管理整個車隊的自動駕駛車輛。

結語:誠意滿載,獻禮AI

自AI第三次浪潮爆發以來,NVIDIA始終是其中最為耀眼而又無可替代的明星企業之一。如今的GTC大會,不僅是NVIDIA先進產品和服務的集中秀場,亦是全球AI和深度學習領域舉足輕重的一大技術盛事。

儘管疫情所礙,GTC 2020比原計劃的3月來的稍晚些,但從今日NVIDIA發布的內容來看,這場圍繞AI算力的饕餮盛宴仍令人感到驚喜。時隔三年,NVIDIA不僅帶來了新一代安培架構,還一併秀出包括GPU芯片、AI系統、服務器構建塊、AI超級計算機、邊緣服務器產品、嵌入式AI產品等全套AI計算大禮包,自動駕駛生態也在穩定地持續擴張。

我們可以看到,經過經年累月的積累和打磨,NVIDIA在技術、產品、生態鏈、供應鍊等方面的優勢都已是難以逾越的高山。

如今AI芯片市場日漸呈現百家爭鳴之態勢,創新架構風起雲湧,雲邊端都陸續出現新的挑戰者。因GPU加速和AI崛起而聲名赫赫的NVIDIA,依然在AI賽道上全速向前奔跑,如果不出意外,我們大概很快會在新一輪AI芯片的發布潮中,看見基於安培架構的NVIDIA A100 GPU成為新的性能衡量標杆。

而成為新性能標杆的A100又將給AI和數據科學領域帶來怎樣的變局?這又將是一個新的令人期待的故事。