最新資訊‎ > ‎

    最新資訊

    反對GPU運算再思考的十大理由

    張貼者:2011/8/5 上午7:24Marketing HongHu

    反對GPU運算再思考的十大理由  Dr. Vincent Natoli, Stone Ridge Technology
    http://www.hpcwire.com/hpcwire/2011-06-09/top_10_objections_to_gpu_computing_reconsidered.html?featured=top
                                                                                                                                                
    無論怎麼看高速運算領域,在過去幾年
    GPU運算的出現,具有卓越且超乎預期的發展,它是一種囊括了所有特徵的顛覆性技術。一開始是一小群的志願幹部勇於投身非常複雜的繪圖語言如Cg語言以及GLSL語言,並且企圖將GPU導入通用計算的領域。它被一群具有強烈渴望與挑戰的高速計算者擁護著。它提供了遠超出常人想得到及不同於傳統解決方案的跳級式、龐大序列性能。

    -
    Cg語言(C for Graphics是為GPU編程設計的高級著色器語言,由NVIDIA公司開發)
    -
    GLSL語言(OpenGL Shading Language 也稱作 GLslang,是一個以C語言為基礎的高階著色語言)

    當 我們在觀察,當NVIDIA CUDA即將要滿四周年的同時,這個幾乎從零開始的通用計算GPU新運動,有很多人試探,如先鋒者投入並且採納這個技術。但也有許多人因各種理由作壁上 觀。在我們的工作當中,我們遇到了許多的後者,因此我們編寫一份針對常見的問題、考量和斷言,來協助評估這個技術。以下是一份試圖解決這些反對意見、反思 這些的最近的動態發展、和清單,並根據我們最好的推測這未來如何展開。明顯地,GPGPU並不是針對全部的高速計算的應用的解決方案,但許多人都發現在該技術具有好的成本效益在許多如地震成像,電磁學,分子動力學,財務評估,醫學影像等


    我不希望重寫我的程式碼或學習一門新的語言
    沒 錯,你將不得不重寫你的程式碼來運用圖形處理器。然而,如果你正在開發一個CPU平行化程式,重寫你的程式碼是不可避免的。唯一的問題是哪個平台,將你的 目標。瞄準在多核CPU代表了一種在平行理論的三層模型,在行程(Progress)、執行緒(Thread)、暫存器(register),分別是使用MPI、OpenMP/ pthreads 和SSE/ AVX的指令集。使用CUDA做GPU編程,並沒有特別困難,就我們所看見,特別是處理器速度上限(compute-bound)與記憶體速度上限(memory-bound)優點將更為顯著。

    *CPU Bound Job

    定義:
    (一)Def:此類型的工作對於CPU computation需求極大,但對於I/O operation需求極小,所以工作的效能完全取決於CPU的速度。例:氣象預估、科學家實驗計算...etc

    (二)若系統中充斥大量的CPU Bound Jobs,則在Buffering的機制之下,CPU運作速度很慢,而I/O device會被迫等待。
    (i)Input情況下:I/O device面對滿的Input Buffer。

    (ii)Output情況下:I/O device面對空的Output Buffer。




    如 果您已經有一個平行的代碼,將可以從 GPU獲得什麼好處?以猜量推算(Back-of-the-envelope calculations)將可以獲得5倍至40倍之間的速度改善,以單顆的GPU晶片對比單顆的CPU晶片而言(chip-to-chip comparisons)。說來有趣,這個估值也同樣在許多已經發佈的GPU的應用程序。這些比較量大致保持不變,在過去幾年英特爾和NVIDIA的兩代 產品之間。

    *「猜量推算」(back-of-envelope calculation)是科學家、工程師,以及出色商人常用的方法,以簡馭繁,好掌握複雜問題的核心。「猜量推算」體現了建模(modelling)的基本思維方法,但不限於學科範圍,具通識精神。


    CUDA 是C的延伸指令集可以被有經驗的程式開發者快速的運用。這樣的平行計算的模型對於我們建置億億級的運算系統,仍遠遠沒有解決的做法。然而,我相信最終的解 決方案將會更像是數據平行(data parallel, loop-level parallelism )的CUDA模型,會比任務平行(task parallel )的CPU更具有替代性。在先前的HPCwire我有提出有關CUDA的看法,讓使用者可以用對比到執行緒的概念來平行化他們的問題。這是一個比較佳的平 行化的開發方案。可以更自然地擴充多GPU從單一節點到多重運算節點。

    *
    exascale 億億級運算系統


    由加泰羅尼亞理工大學(Universitat Politecnica de Catalunya)與伊利諾大學的IMPACT研究小組(http://impact.crhc.illinois.edu/),在這個方向步驟上已經進行,且有傑出的學術上的表現在加速器專用全域記憶體計劃Global Memory for Accelerators ,GMAC)。在業界上,有在挪威創立的HUE這家公司產品HUESPACE的計算函式庫,以及他的姊妹公司Headwave .  一家專注於石油與天然氣探勘的公司均有傲人的運用GPU的表現。


    2.我不知道針對自己的問題,可以獲得怎樣的效率改善


    HPC 的程式可以分為CPU限制以及記憶體限制。對於CPU限制,我們比較了NVIDIA的Fermi M2090以及Intel的westmere. NVIDIA的Fermi擁有512個核心,以時脈1.3GHz進行。Westmere擁有6核心,時脈可以達3.4GHz,以核心數-Hz的對比約為 32倍。假如你的CPU代碼使用SSE指示集
    ,有可能可以額外的提高4倍的速度。而對比,GPU的效率仍約為8倍(接近於GFLOPS的尖峰對比值)

    對 於記憶體速度上限我們比較 GPU主要記憶體頻寬為177 GB/秒以及每一顆CPU對於主機板的記憶體頻寬32 GB/秒約為5.5倍。假如你的程式碼是處理器速度上限,期待值將介於5倍多的高度優化的SSE程式碼至20倍左右的一般的程式編碼。假如是記憶體速度限 制將期待速度提升介於5倍左右的單晶片比較。

    這將會有幫助的,去考慮一個平行方案時,考量問題以實際的預算邊際成本。假如你的程式是記憶體速度上限,那你將必須考慮最貴的方案去增加記憶體頻寬。或者增加另外一個GPU運算卡,以約每15美金 (GB/Second)的成本。或者增加另外一個計算節點以約80美金(GB/second)的方案。後者的方案將增加計算的機櫃佔用空間以及會有額外的作業系統導致的延遲。


    對於計算速度上限的程式,可以採用類似的計算,也同樣會產生每一gigaflops的提升導致的邊際成本。
    然 而對於混合計算速度上限與記憶體速度上限的程式,對於大部分的程式都是如此。GPU程式可以減少記憶體速度的延遲透過juggling數千的執行緒,並且 持續的計算,運用儲存在暫存器上數據,且可以隨時的提取。透過減少的記憶體速度延遲,GPU可以更容易的達到計算效能的提升。


    3.PCIe頻寬將扼殺我的程式效能
    這 個爭議提及基於PCIe頻寬的GPU計算將影響計算強度(computational intensity).計算強度有各種不同的定義,但這目的讓我們說明一個浮點的數據運算根據在每一個浮點數據的傳輸。的確有一個門檻工作得做,就是確保 每一個byte的數據傳送到GPU運算卡,得確保這個數據傳入的計算效益是值得的。



    例 如,以PCIe v2.0 x16的頻寬總計約6GB/second在實際上。觀看起來,可以在一秒內將資料傳輸到M2090的6GB的主要記憶體上。M2090是一個浮點運算的怪 物,在M2090上的雙精準的浮點運算值為665 gigaflops尖峰值,可以輕易的處理很多的計算在一秒之內。並且填滿主要記憶體的資料空間。

    另外舉例,假如PCIe的傳輸時間並不超過計算時間的10%,M2090必須要做數千的浮點運算在卡上的儲存資料區,在資料重新被覆蓋之前。GPU的演算卡,則必須要盡可能的保存在卡上的記憶體盡可能的久一點、時間更長一點。這是關鍵。


    此外,CUDA允許不同步的資料重疊,在計算當中,做PCIe的資料傳輸。巧妙地運用這些特徵可以讓程式開發者在隱藏掉一些或者所有的PCIe的資料傳輸時間,在計算的過程當中。演算法特別在以時間切分的物理值如FDTD(Finite Difference Time Domain)。或者典型的分子動力學計算,當有N2的粒子對粒子的相互作用,所引導致的有意義的資料進行重複使用,將可以達到相當高的計算強度效果。


    演算法將是沒有效率的在一些孤立的問題上面如單純的向量內積就會產生很差的計算效果。
    假如問題是可以對應到多顆GPU,就必須要減少資料的傳輸。例如僅傳送border data利用預先的資料在區域進行切割。

    4.有關阿姆達爾定律(Amdahl’s law)
    Amdahl's Law背後的意義就是,倘若你要提升效能,最有效益的方式,便是直接改善執行時間最長的那個部分,因為針對這去調整,可以提供對系統整體最多的改善。



    想像一下,例如,你可以減少運行時你的串行程序為零。
    如果整個串型佔整個代碼 50%,則平行處理的效能不可能超過2倍;
    若佔 90%的運行時間將接近10倍的加速比。所以實際的加速比更低

    最有效的反到阿姆達爾定律反對 GPU計算性能的觀察,現代建築要求所有代碼寫的大規模並行的串行部分減少到最低的可能... ...沒有其他遊戲小鎮。這才是真正的CPU平台上,以及對 GPU平台。


    唯一的高性能計算平台,我們會做出的大規模並行與阿姆達爾定律同樣適用 CPU實現。真正的問題是,你在哪裡要運行並行部分的代碼 ... ...在CPU或GPU上的?


    * 阿姆達爾定律是計算機系統設計的重要定量原理之一,於1967年由IBM360系列機的主要設計者阿姆達爾首先提出。該定律是指:系統中對某一部件採用更 快執行方式所能獲得的系統性能改進程度,取決於這種執行方式被使用的頻率,或所佔總執行時間的比例。阿姆達爾定律實際上定義了採取增強(加速)某部分功能 處理的措施後可獲得的性能改進或執行時間的加速比。
      阿姆達爾曾致力於並行處理系統的研究。對於固定負載情況下描述並行處理效果的加速比s,阿姆達爾經過深入研究給出瞭如下公式:
      S=1/(a+(1-a)/n)
       其中,a為串行計算部分所佔比例,n為並行處理結點個數。這樣,當a=0時,最大加速比s=n;當a=1時,最小加速比s=1;當n→∞時,極限加速比 s→ 1/a,這也就是加速比的上限。例如,若串行代碼佔整個代碼的25%,則並行處理的總體性能不可能超過4。這一公式已被學術界所接受,並被稱做“阿姆達爾 定律”(Amdahl law)。


    5.NVIDIA這間公司會消失嗎?
    HPC歷史上不乏許多超級電腦公司,試圖在平行計算領域中大躍進留下了殘跡。簡短名單包括
    Thinking Machines,Maspar,KSR,Mitrion等。這些常聽說的英勇事蹟和在他們身後的人們應該承認其遠見和發揮的作用,他們在創作受阻,隨著時間推移導致了更大的集體了解什麼可行,什麼不可行。我們誠心感謝做為歷史借鏡的他們。

    然 而NVIDIA並非一間超級電腦公司。這家一年有50億美元營收的公司,大部分的營收來自顯示卡和嵌入式處理器,它銷售給巨大且市場狂熱PC遊戲玩家。它 的相對獨立性,對於 HPC是一種力量,如果一切HPC使用NVIDIA的GPU運算消失​​仍然有一個美好的和有利可圖的生意。只要有咖啡因成癮的青少年願意發揮虛擬戰爭遊 戲 NVIDIA會留下來。事實是,NVIDIA的後勁更好,所處的市場更大以及更安全,比起已經是相當長時間的超級電腦公司-CRAY電腦.

    此外,NVIDIA已經公開發布其遠景和路線圖的技術開發出大約 6年。
    GPU在NVIDIA相當有野心與抱負的規劃中,將佔據在未來計算的架構當中,將從輔助作用的角色轉為更主要的計算運算角色。
    沿著這方向,NVIDIA他們有一些非常強大的計算引擎已經被規劃著。



    6.GPU運算卡沒有針對我的問題,提供足夠的繪圖記憶體容量


    在M2090與M2070,
    GPU運算卡內存目前僅提供到 6 GB。這對於需要更大的記憶體存取的計算演算法,將是一個特別的問題。而這樣的一個問題,可以透過在單一運算節點上存取多張卡以解問此問題。


    例如,戴爾 C410x PCIe擴展機箱,最多可包含16張GPU卡,總計可以達到96 GB的記憶體空間。
    適 當的區域分割(domain decomposing)你的問題,分散到16個獨立的GPU去,將是一個非常有效率的做法,來側面避開記憶體的限制。對於一些物理問題的性質將相當的有 效率,特別是計算的量、特質是在切割後的volumes上面,而分享的資料是在物理面的表面


    大 部分主要的問題是演算法需要隨機的存取大型的矩陣。例如huge hash tables或者其他問題,需要隨機的針對矩陣查找。目前這一代的GPU卡的確不是一個有效率的解決方案針對這種案例。然而,記憶體容量相對是相對的便宜 的,且很穩定的持續改善容量大小。可以預期未來的幾代,GPU卡的記憶體肯定會持續的增加。



    7.我將等待INTEL推出的更多的CPU核心/代號騎士號角(Knights Corner)的大於50核心CPU

    更 多的核心數將對計算速度上限的應用有所幫助,但是仍需要考慮的是,隨著更多的CPU內核的增長,GPU的核心數也是同樣可隨著增長。 比較過去的兩個技術的世代顯示在CPUs與GPUs之間,有漲有落,有所差異,但成長始終不是零的,不是沒有成長的。我們可以預期將會持續的成長,在核心 數的部分。對於頻寬的速度上限問題,核心數量的添加與成長顯然會比頻寬速度的增長來的容易。


    英特爾公司對於Knights Corner的計劃, 僅僅宣布約一年左右時間,也幾乎確認是承認了對於GPU競爭下,在x86架構下的數據平行運算的需求。對於所有的Knight Corner的詳細計畫與規格目前仍然不太清楚,然而應該是沿用Knights Ferry的原型做為基準。我們應該可以預期可以超過50個核心,也處理器頻率超過1.2GHz的核心。每一個核心擁有512 bit的向量處理單元,並且支援4個超線程。使其成為強大的HPC競爭者。然而對於Intel的計劃發展模式、開發出的產品價格、以及量產日期或者其他更 關鍵性的資訊,在目前這個時候,是難以了解以及獲取的。

    *Knights Ferry的核心頻率是1.2GHz,擁有32個x86核心。支援特別的超執行緒技術,單一核心能模擬成四個核心。
    * 據英特爾透露,Knights Ferry有32個x86核心每個核心頻率1.2GHz,每個核心支援四個超線程,而成倍增加的數目達到邏輯核心線程共128個(線程)的執行(4個核 心)。 該單位插槽採用PCI Express的2.0配至1-2GB的GDDR5記憶體,該晶片還擁有8MB的L2快取,好奇的是東西本身,具有很強的並行應用能力但是並不需要大量的 快取。



    對 於Knight Corner是成功的,它符合著滿足主要市場的論點,並且仍致力於延續x86的架構,並且主宰HPC計算的市場。它仍必須另外尋找一個基礎深厚的市場 (broad-based market)以獨立於幾乎與世隔絕(cloistered world)的HPC科學家們。
    對 於Knight Corner是成功的,將必須符合商品市場的爭論已經使得x86架構主宰HPC計算。它必須找到一個具有廣泛基礎的市場外與世隔絕的世界HPC科學家。商 品的圖形是一個合理的選擇這個更廣闊的市場,但它已經很好解決由NVIDIA和AMD。圖形顯示(Commodity graphics)是這寬廣的市場合理的選擇,然而NVIDIA與AMD早就在這個市場落戶深耕已久。


    8.我不喜歡專有語言(proprietary languages)

    專有語言這裡指的是發展一個語言僅有一個組織,將有可能導致發展的不確定性以及朝不想要的方向發展或者在沒有支持等等問題。CUDA就屬於這一類。然而使用CUDA的優勢很明顯:1)它可以實現 NVIDIA硬件特定的優化; 2)沒有一個會議作出roadmap的決定,以及3)支持新的NVIDIA硬件功能更加迅速。

    但 如果專有語言的開發在您的組織中,是一個被反對的阻礙(show-stopper).那OpenCL就是一個非專有語言的最完美的選擇,它同樣被 Apple,NVIDIA,AMD,Intel以及許多其他提供可攜性、跨平台等產品概念的組織。然而我仍須強調,注重跨平台的開發,將導致程式的效能被 減少。


    9.我等待著可以把CPU程式直接轉譯為GPU程式的魔法程式轉換器出現

    這 分為好消息與壞消息。好消息是CPU轉換到GPU的程式轉換器已存在。壞消息是它不可能產生專家般的高性能程式代碼。沒有經驗的使用這些工具,比起一個公 司針對特定的技術的程式轉譯,使用CUDA,效率並不會特別好。(native code是機器碼,native CUDA是本機的CUDA,指直接運用CUDA編寫)。
    程式開發者的缺發與不偏不倚的來源對於使用這些方法的數據。

    然 而有兩間公司提供了這樣的方案,如PGI與CAPS HMPP。他們提供這兩樣的編譯器給完全不會開發的人員或者是既有的程式(非原本開發者)。都有提供試用的版本在網路上,非常的容易取得,而這樣的方案可 以輕易的讓使用者進行測試與轉譯程式。而我們可以期待的是,未來將如支援openMP一般的有一些標準化的東西出來,將可以使的轉譯工作進行得更為效率。

    10.我有N個代碼,但只有一份 IT預算

    通俗點的說,這將是一個"要就幹大的,要不就不要幹,要就做第一流,要不就回家種田"的進退兩難的窘境。
    要 增加一個具有GPU功能的預算節點,對於大多數的組織,因為有著固定的IT預算,同樣的預算上,就必須要做一個選擇,選擇建構少一點節點,但卻有威力更強 大的GPU運算節點,或者選擇在節點更多一點,但比較沒有威力的傳統CPU節點。對於經濟規模效益,要不選擇一個具有100%都有GPU運算節點的,或者 就根本是0%的GPU節點。


    這 特別真實的在編列預算為基礎的現今組織,在同樣相當競爭的市場當中,資料中心的處理資料的運作是一年365天,天天運轉不中止的(24/7/365)。然 而,在最差的狀況下,有同時管理兩種版本的所有東西:資料中心的管理軟體、排程工作、不同的編譯器、測試與驗證的環境、以及相關的應用程式等等(cluster management scripts, scheduling, compilers, testing and validation, application code)

    新科技、新技術的採用,在大型的商業組織,會被高度重視的要求計算出投資報酬率(ROI)
    有 關"go big or go home"的論調顯示這樣的焦慮是有智慧的。設想更為周全的組織,針對這樣的困難的問題,將會量化已知的成本,並且推測、估計出未知的科技轉移成本。總結 最後一點以及先前所提的九個論點,管理者要去思考這些投資(程式的發展、人員的技巧、採購新的機器,需要重新再訓練等等)以及會有怎樣的回報(性能、可擴 充性、以及威力性)


    每家公司都必須戰戰兢兢的制定出其獨特的投資回報率方程式,理性的面對將面臨的阻礙以及保守的利潤率。使用傳統的財務分析方法,資料投資則必須產出利潤回報給股東、投資人,以股權的比例進行分配。而且必須要比較其餘的投資機會,運用該公司在該領域所擁有的專業能力。


    總結GPU計算,在HPC的市場,在過去的四年之間被採用的,有著不可抹滅的價值。

    上列的十個主要的反對意見,是大部分從個人、組織常提出的聲音。正如開頭所提,GPGPU並不是針對所有的HPC問題的解決方案。但是公司、組織可能因為錯誤的決策理由而輕忽這個科技技術的變革,以致於少或取了更有意義與價值的效能增長,以及所節省的費用。


    最 後,一個組織是否在這個年度導入朝向GPU計算,做為年度的解決方案。是要考量諸多,從謹慎且斟酌的戰略面思考,目前既要符合最好的成本效益,且展望未來 的基礎上,考量到IT系統的架構、選擇的程式開發方式,以及能源消耗等面向,來帶領著我們進入到億億級的超速電腦運算領域去。

    About the Author
    關於作者
    Vincent Natoli is the president and founder of Stone Ridge Technology. He is a computational physicist with 20 years experience in the field of high performance computing. He worked as a technical director at High Performance Technologies (HPTi) and before that for 10 years as a senior physicist at ExxonMobil Corporation, at their Corporate Research Lab in Clinton, New Jersey, and in the Upstream Research Center in Houston, Texas. Dr. Natoli holds Bachelor's and Master's degrees from MIT, a PhD in Physics from the University of Illinois Urbana-Champaign, and a Masters in Technology Management from the University of Pennsylvania and the Wharton School.
    Stone Ridge Technology is a professional services firm focused on authoring, profiling, optimizing and porting high performance technical codes to multicore CPUs, GPUs, and FPGAs.


    Vincent Natoli是Stone Ridge Technology的創辦人。他是一個在HPC領域有20多年經驗的計算物理學家。他曾為HPTi的技術總監。在那前十年是ExxonMobil公司的 資深物理學家。而他們企業的研究實驗室位於新澤西州Cliton,與其德州休斯敦的上級研究中心。Natoli博士擁有麻省理工學院物理學士和碩士學位,伊利諾大學香檳區的博士、和賓州大學及華頓商學院的科技管理雙碩士。Stone Ridge Technology是一家專業服務公司,專注於創作,分析,優化和移植技術規範,以高性能多核CPU,圖形處理器和FPGA。

    GPU 高速帄行運算「計算統一設備架構(CUDA)」在地形插值演算及地質建模應用之初步研究

    張貼者:2011/6/1 下午2:34Marketing HongHu   [ 已更新 2011/6/1 下午2:35 ]

    詮釋資料
    作品名 GPU 高速帄行運算「計算統一設備架構(CUDA)」在地形插值演算及地質建模應用之初步研究
    作者 邵屏華,鄭文昕;
    出版項 2011[民100]
    刊名/出處 中華民國地球物理學會與中華民國地質學會100年年會暨學術研討會; 第159頁
    資料類型 期刊論文
    作品語文 中文
    關鍵詞 GPU 高速平行運算;GPGPU;計算統一設備架構(CUDA);插值;地質資訊;中華民國地球物理學會與中華民國地質學會100年年會暨學術研討會;
    作者再查詢 邵屏華; Shao, Ping-Hua; 鄭文昕; Wen-Hsin Cheng;


    內文

    因應視覺上高品質擬真顯示之不斷需求,研發顯示技術暨顯示卡公司,藉由尖端技術開發顯示處理晶片(繪圖運算單元,GPU),並以平行運算技術封裝數顆單元為一處理器,並普及至一般個人工作站或個人電腦。為擴展其「平行運算」之使用範疇,遂有GPGPU 之國際型開源(Open Source)計畫組織,導入該繪圖運算單元做為一般用途之電腦計算。nVidia 公司推出之「計算統一設備架構(CUDA)」即為利用繪圖單元強大之簡易平行運算能力,以做為數值計算之基礎架構,使一般工作站或個人電腦有機會替代大型電腦運算中心,進行海量數值運算,該能力即有機會導入地質領域,用以解決地形視覺化運算或地質建模上繁重之數值計算工作。

    地質資訊體系中,地質建模或地質資料處理凿括地表地形及地下之實體材質。然不論前者或後者,在地質建模過程皆需處理大量的資料網格計算、內插計算、統計分析等,最後以三維仿真型式呈現建模成果,或最終將地表地質分布投影在二維平面上成圖。該相關之插值、統計等線性組合即為矩陣運算,而最終投影過程亦為一矩陣轉換,是故各項計算皆有利CUDA 之導入,並為之平行運算加速。本研究將給出初步海量網格資料之地形插值成果案例,探討該CUDA 導入之適用性,並討論受資料結構或演算法因素所造成平行運算之難點。

    綠色超級電腦評測:GPU與IBM出色

    張貼者:2010/10/25 下午12:06Marketing HongHu   [ 已更新 2010/10/25 下午12:09 ]

    HPCwire綠色超級電腦評測:GPU與IBM出色
    文/沈經 2010-07-05
    該排名以超級電腦平均每瓦電力每秒所提供的浮點運算能力(MFLOPS/W)為基準,結果前八名都不是傳統架構的超級電腦,而是有加速架構的系統。 

    根據國際超級電腦大會所發布的綠色超級電腦500大(Green500)名單,IBM的PowerXCell 8i獨占前三名及五至七名;而混搭nVidia GPU的系統佔據第四與第八。該名單由六月初發表的世界超級電腦五百大而來,只是改以每瓦提供的運算能力排名。 

    該排名以超級電腦平均每瓦電力每秒所提供的浮點運算能力(MFLOPS/W)為基準,結果前八名都不是傳統架構的超級電腦,而是有加速架構的系統。Green500創始人之一的Wu Feng教授指出,有加速架構的系統平均為554 MFLOPS/W,傳統架構的系統則為181 MFLOPS/W,在同樣的電力消耗之下,運算能力幾乎差了三倍。 

    目前加速架構的超級電腦有兩大類,一是使用IBM自成一格的PowerXCell 8i,是IBM、Toshiba(東芝)與Sony一起為Sony的Playstation 3電視遊樂器打造的Cell處理器的後續產品。並列最省電的三部超級電腦都是使用PowerXCell 8i,皆安裝在德國。這次前八名中共有六個系統採用PowerXCell 8i。 

    其餘的加速架構則是傳統處理器搭配GPU,nVidia與AMD ATi為主要GPU廠商,中國先使用ATi的Radeon HD 4870 GPU製作了天河一號,在2009年的Green500排名第八,這次掉到第11名。但今年中國兩台使用nVidia C2050 GPU的新系統佔據第四名與第八名。另外,日本東京工業大學也與日本HP、日本微軟、NEC、nVidia合作,預計將在今年十一月完成一台可以排名Top500第二的超級電腦。(編譯/沈經)

    HP: Build Top100 Super With Just 100 Servers

    張貼者:2010/10/18 上午2:38vitola lee

    Thanks to GPUs, you can now build a system that ranks among the top 100 supercomputers with just 100 of HP’s new hybrid servers. As introduced by HP’s Mark Potter in Barcelona this week, the new ProLiant SL390 contains three general purpose GPUs, each with 1 TFLOP of peak performance.

    Potter said that the SL390 servers take up 77 percent less space and operate at 71 percent lower cost compared to what is currently on the market. A single rack of SL390s, Potter said, creates the 113th fastest supercomputer in the world. HP reckons they can build a “top 100 supercomputer” using a hundred SL390s, running at 77 TFLOPs.

    According to Potter it would take 952 x86 servers from their competitors to achieve the same result.

    Update from NVIDIA - CUDA: Week in Review

    張貼者:2010/10/14 下午11:18vitola lee   [ 已更新 2010/10/14 下午11:24 ]


    CUDA: Week in Review

    Tuesday, Oct. 12, 2010, Issue #38

    To see a web-based version of this message, click here

     

    WELCOME

    Welcome to CUDA: Week in Review, an online news summary for the worldwide CUDA and GPU computing community.

    CONTENTS

    CUDA ON YOUTUBE

      - NVIDIA CEO Jen-Hsun Huang discusses the new Huang Engineering Center at
         Stanford University
    . (1:50)

      - David Ragones of NVIDIA describes how the GPU-accelerated web will allow more
         immersive and interactive web sites
    . (1:46)

      - Rocker Rudy Sarzo of Quiet Riot talks about GPU computing, artistic creativity
         and working at the 'speed of thought'
    . (5:14)

      - Industrial Light & Magic demonstrates how the GPU is enabling very cool effects in
         films
    . (6:32)

    CUDA SPOTLIGHT

    The Portland Group (PGI) recently announced a partnership with NVIDIA. We interviewed PGI's Douglas Miles for more details.

    NVIDIA: Douglas, tell us about PGI.
    Douglas: PGI is based in Portland, Oregon. We create software tools that maximize performance and portability of applications across Linux, Windows and OSX. Today, these tools include CUDA Fortran and the PGI Accelerator for NVIDIA GPUs.

    NVIDIA: What did PGI announce at GTC 2010?
    Douglas: We announced the "PGI CUDA C compiler," a new tool that will enable CUDA developers to deploy their applications on systems based on the industry-standard x86 architecture.

    NVIDIA: Why is this significant?
    Douglas: Today's application developers need flexibility. They want to be able to create innovative apps that leverage parallel computing and then deploy these apps on a wide range of target systems. The new PGI CUDA C compiler will enable developers to write parallel CUDA C applications that can run on x86 workstations, servers and clusters - with or without NVIDIA GPUs.

    NVIDIA: Will the new PGI CUDA C compiler work with both AMD and Intel processors?
    Douglas: Yes. PGI compilers have been optimized for performance on the latest AMD and Intel processors since 1997. All of that technology will be put to work optimizing both the sequential and massively parallel components of CUDA C applications.

    NVIDIA: What is the timing for the rollout?
    Douglas: We will demonstrate a prototype at SC '10 in November in New Orleans. We aim to have a first production release in Q2 2011.

    For more info, see the PGI press release.

    CUDA NEWS

    GTC 2010 Keynote Speaker Featured in New York Times
    The work of Dr. Sebastian Thrun, who delivered the closing address at this year's GTC, was highlighted in the New York Times on Oct. 10 in an article titled "Google Cars Drive Themselves, in Traffic."
      - See: www.nytimes.com/2010/10/10/science/10google.html?_r=2&ref=technology

    Plenoptics and the Future of Digital Photography
    Abbas Jaffar Ali of T-Break Tech saw Adobe's plenoptics technology demoed at GTC 2010. He writes: "Plenoptics - remember that word as it might just be the future of digital photography. I had the opportunity to watch David Salesin and Dr. Todor Georgiev from Adobe, who explained what plenoptics is and the technology behind it... The reason these guys were at NVIDIA's GTC is because using GPUs to stitch images together is about five hundred times faster than CPUs."
      - See: http://tbreak.com/tech/2010/10/plenoptics-the-future-of-digital-photography

    MATLAB Adds GPU Support
    Michael Feldman of HPCwire reports: "MATLAB users with a taste for GPU computing now have a perfect reason to move up to the latest version. Release R2010b adds native GPGPU support that allows users to harness NVIDIA graphics processors for engineering and scientific computing."
      - See: www.hpcwire.com/features/MATLAB-Adds-GPGPU-Support-103307084.html

    New Version of Thrust
    NVIDIA released Thrust v1.3, an open-source template library for developing CUDA applications. Modeled after the C++ Standard Template Library (STL), Thrust brings a familiar abstraction layer to GPU computing. To get started, download Thrust v1.3 and then follow the online quick-start guide.

    Parallel Nsight and CUDA Toolkit Overview
    NVIDIA has added new performance improvements and capabilities to Parallel Nsight and the CUDA Toolkit. These enhancements give developers more flexibility and power to easily create high-performance GPU-accelerated apps. For more info, watch the video overview by NVIDIA's Will Ramey and Stephen Jones.

    CUDA JOB OF THE WEEK

    Oak Ridge National Laboratory's Leadership Computing Facility (OLCF) is seeking a postdoc research associate for the project "Massively Parallel Block Structured Adaptive Mesh Refinement on Hybrid Architectures for Subsurface Flow Applications." The ideal applicant will have a Ph.D. in Applied Math, C.S. or related field; Experience with PETSc, Hypre, SAMRAI libraries; Parallel programming experience with MPI; and experience with CUDA.
      - See: www.orau.org/ornl/postdocs/ornl-pd-pm/description.aspx?JobId=653

    CUDA CALENDAR

    – Wolfram Technology Conference

    Oct. 13-15, Champaign, Illinois

    www.wolfram.com/events/techconf2010


    – MATLAB for Finance and Insurance

    Oct. 15, Paris

    Presented in English and French

    www.mathworks.fr/company/events/seminars/seminar51797.html


    – 
    NEW: GPU Computing Conference - Sprinx Systems and Faculty of Information
       Technology

    Oct. 15, Prague, Czech Republic

    http://hpc.sprinx.cz/conference.aspx


    – Microsoft Technical Computing across Client, Cluster and Cloud (TC3)

    Oct. 20, London

    Includes Visual Studio and Parallel Nsight briefings
    Register here: http://is.gd/fxLdx; Special invitation code: 437DB9


    – Cray Workshop on High Performance Computing - Cray and HLRS

    Oct. 25, Stuttgart

    http://corga.hlrs.de/corga/corga-CrayGPU-2010


    – 
    NEW: Beginner CUDA Seminar - empulse GmbH

    Oct. 26, Cologne, Germany

    www.empulse.de/en/leistungen/workshops/hpc-workshop.html


    – 
    NEW: GPUs for Molecular Dynamics - GROMACS

    Oct. 28-29, Espoo, Finland

    www.csc.fi/english/csc/courses/archive/gpu-gromacs


    – 
    NEW: Beginner CUDA Course - SagivTech

    Oct. 31-Nov. 2, Ramat Gan, Israel

    www.sagivtech.com/24054.html


    – Supercomputing 2010

    Nov. 13-19, New Orleans

    http://sc10.supercomputing.org/
    http://research.ihost.com/whpcf


    – 
    NEW: Advanced GPU Supercomputing for HFT (High-Frequency Trading)

    Nov. 15-17, New York (taught by Andrew Sheppard)

    http://ajtsheppard.wordpress.com/


    – Training from CAPS

    Nov. 23-25, Rennes, France

    www.caps-entreprise.com


    – SIGGRAPH Asia

    Dec. 16-18, Seoul

    www.siggraph.org/asia2010


    – Scientific Computing in the Americas: The Challenge of Massive Parallelism

    Jan. 3-14, 2011, Valparaiso, Chile

    http://www.bu.edu/pasi/


    – IEEE International Parallel & Distributed Processing Symposium

    May 16-20, 2011, Anchorage

    http://www.ipdps.org/


    – 
    NEW: CUDA and Advanced Image Processing - SagivTech

    Dec. 12-14, Ramat Gan, Israel

    www.sagivtech.com/24054.html


    Ongoing

    – CUDA Certification: www.nvidia.com/certification

    – GPU Computing Webinars: www.nvidia.com/webinars

    – Training from EMPhotonics: www.emphotonics.com/services/cuda-training

    (To list an event, email: cuda_week_in_review@nvidia.com)

    CUDA RESOURCES

    GPU Technology Conference

    – See presentations and keynotes from GTC 2010: www.nvidia.com/gtc

    CUDA GPUs

    – See list of CUDA-enabled GPUs: www.nvidia.com/object/cuda_gpus.html

    CUDA Downloads

    – Download CUDA Toolkit 3.2: http://bit.ly/aKCENp
    – Download OpenCL v1.1 pre-release drivers and SDK code samples (Log in or 
       apply for an account
    )

    CUDA Documentation

    – Developer guides and docs: http://developer.nvidia.com/object/gpucomputing.html

    CUDA and Academia

    – Learn more at http://research.nvidia.com/

    CUDA on the Web

    – Read previous issues of CUDA: Week in Review: http://is.gd/cBXbg
    – Follow CUDA & GPU Computing on Twitter: www.twitter.com/gpucomputing
    – Network with other developers: www.gpucomputing.net
    – Stayed tuned to GPGPU news and events: www.gpgpu.org
    – Learn more about CUDA on CUDA Zone: www.nvidia.com/cuda
    – Read Kudos for CUDA: http://www.hpcwire.com/features/Kudos-for-CUDA-97889444.html
    – Read Supercomputing for the Masses, Part 20: http://is.gd/f9o6o

    About CUDA

    CUDA is NVIDIA’s parallel computing hardware architecture. NVIDIA provides a complete toolkit for programming on the CUDA architecture, supporting standard computing languages such as C, C++ and Fortran as well as APIs such as OpenCL and DirectCompute. Send comments and suggestions to: cuda_week_in_review@nvidia.com

    You are receiving this email because you have previously expressed interest in NVIDIA products and technologies. Click here to opt in specifically to CUDA: Week in Review.

    Feel free to forward this email to customers, partners and colleagues.

    Please note that this message was sent to the following email address: (cm.tsai@honghutech.com
    If you would like to stop receiving emails from NVIDIA, click here to unsubscribe.

    Copyright © 2010 NVIDIA Corporation. All rights reserved.
    2701 San Tomas Expressway, Santa Clara, CA 95050.

    Updated GPU status for AMBER, including performance guidance for multi-GPU workstation configurations

    張貼者:2010/10/14 上午1:55vitola lee   [ 已更新 2010/10/14 下午9:27 ]


    Who uses AMBER?

    “Everything that living things do can be understood in terms of the jigglings and wigglings of atoms”

      – Richard Feynman

    Who should you look for?


    Adobe大力推薦NVIDIA® QUADRO GPU 造就Adobe OpenHD影片編輯解決方案達最佳化效能

    張貼者:2010/8/12 下午9:41Cm Tsai

    NVIDIA 

    Adobe大力推薦NVIDIA® QUADRO GPU 造就Adobe OpenHD影片編輯解決方案達最佳化效能 

        2006119 全球可編程繪圖處理器技術領導廠商NVIDIA公司 (Nasdaq: NVDA)今日宣佈NVIDIA Quadro專業繪圖方案將為Adobe用戶提供多項直接GPU加速功能,針對新發表的Adobe® Production Studio提升應用程式的效能並強化影片編輯的工作流程。NVIDIAAdobe已建立合作關係,緊密整合雙方的硬體與軟體解決方案,以支援各種業界的全新應用,例如最近剛發表的Adobe OpenHD聯盟。 

        Adobe公司影音產品管理總監Simon Hayhurst表示:「我們與NVIDIA在雙方資源合作方面挹注了可觀的策略性投資,並充份發揮NVIDIA GPU的各項優勢以開發我們的應用產品,為顧客提供能加快HD高畫質影片製作的效能與功能。Adobe Production Studio在內容製作流程上藉由生產力的提升、節省時間並改進創意控管機制開創了一個全新的時代,而這些優勢藉由運用NVIDIA Quadro解決方案優異的繪圖效能,獲得了更進一步提高。」 

        Adobe Premiere® Pro 2.0整合了運用GPU加速的桌面播放機制,大幅改善HD影片的編輯流程。像是對影片中多個圖層進行縮放與調整位置、色彩校正、以及淡入/淡出轉場特效等基本作業,都能透過GPU內的像素著色器達到即時互動的效能。 

        Adobe After Effects® 7.0運用先前版本GPU的加速功能,讓藝術家能運用GPU運算出超逼真的預覽畫面及最終的著色結果。最新版After Effects讓藝術家能在真正3D空間中工作,並針對因動作產生的模糊影效果、光源、陰影、混色、色彩校正、各種模糊效果、以及交疊畫面等功能提供完善的GPU加速機制。After Effects 7.0亦運用NVIDIA Quadro繪圖卡內建的記憶體,提升影片播放的效能並縮短等待運算的時間。 

        此外,NVIDIA已針對After Effects 7.0開發一款外掛程式,讓After Effects能支援NVIDIA Quadro FX 4000 SDIQuadro FX 4000 SDI鎖定廣播、影片、以及電影專業人士的整合型繪圖與影像視訊解決方案。這款外掛程式為製作完成的內容提供即時預覽功能,在After Effects的操作環境中將影像直接輸出至標準或高解析度SDI廣播級螢幕。 

        NVIDIA公司專業產品部門總經理Jeff Brown表示:「高傳真度是Adobe Premiere ProAfter Effects用戶的必然需求。藉由NVIDIA Quadro解決方案的高精準特性,Adobe能帶來符合使用者在影片製作方面所要求的效能與品質。」 

        NVIDIA亦宣佈成為Adobe OpenHD聯盟的成員,此聯盟的宗旨為開發一系列通過認證的Windows整合式HD解決方案,讓HD技術平價化與大眾化。NVIDIA Quadro解決方案是唯一通過認證,支援Adobe OpenHD平台認證的繪圖解決方案,透過全套式的系統提供使用者最佳化的 out of the box」體驗。Adobe將於2月展開的Adobe Production Studio巡迴展中展示這些繪圖解決方案,且NVIDIA將是這波展覽的主要贊助商。 

        全球各大領導OEM廠商、工作站系統整合廠商、以及NVIDIA通路夥伴PNY Technology(美國與歐洲/中東/非洲)、麗臺(亞太地區)、艾爾莎(日本)等業者都推出NVIDIA Quadro繪圖卡產品。有關上述所有NVIDIA專業解決方案的詳細資訊請參考www.nvidia.com/quadro。有關Adobe OpenHD聯盟的資訊請參考 www.adobeopenhd.com 


    關於NVIDIA


    NVIDIA是全球可編程繪圖處理器技術的領導廠商,為電腦運算、消費性及行動式電子裝置提供創新與帶先業界的技術與產品。NVIDIA總部位於美國加州Santa Clara,並在亞洲、歐洲和美洲等各國設有營運據點。有關NVIDIA的詳細資訊,請參考企業網站www.nvidia.com  

    NASA Center for Climate Simulation Expands Research Capabilities with Dell High-Performance Computing Technology

    張貼者:2010/7/18 下午6:32jeff hsiao

    http://www.dellhpcsolutions.com/

    NASA Center for Climate Simulation Expands Research Capabilities with Dell High-Performance Computing Technology

    • NCCS to double its computational capabilities to more than 300 trillion calculations per second
    • New Dell servers will enable NCCS users to fine-tune model resolutions and increase data analysis capacity for NASA’s earth and space science user community

    ROUND ROCK, Texas--(BUSINESS WIRE)-- Dell is providing the NASA Center for Climate Simulation (NCCS), located at Goddard Space Flight Center in Greenbelt, Maryland, with new Dell PowerEdge™ C6100 servers customized for high-performance computing (HPC) environments. The contract is worth up to $5.1 million dollars. With the new servers, NCCS users at Goddard and locations across the U.S. will conduct simulation modeling and data analysis to explore, understand and predict climate change.

    NASA researchers will benefit from significant improvements in the Dell PowerEdge C6100’s system performance and reductions in energy consumption over previous generation servers — with anticipated improvements of 69 percent in performance and 47 percent in energy efficiency. The new servers will double NCCS computational capabilities to more than 300 trillion calculations per second. This increased performance will enable NCCS users to fine-tune global model resolutions to capture smaller-scale features in the atmosphere and oceans.

    Launched this spring, the Dell PowerEdge C6100 is proving popular with universities and public and private sector research organizations committed to increasing HPC efficiency with open, affordable technologies. Its unique density and shared infrastructure enables organizations like NCCS to allocate systems management, space and time savings toward further innovation. Simplified systems installation also means customers can take advantage of the latest processors and emerging technologies more quickly.

    Quotes:

    Phil Webster, Chief, Goddard's Computational and Information Sciences and Technology Office: “When we debuted the NASA Center for Climate Simulation this spring, we anticipated expanding our high-performance computing capabilities to meet the growing needs of NASA’s earth and space science user community. We chose to use Dell’s PowerEdge servers based upon both the commitment of Dell to the HPC community and the ability of their systems to scale with our program over time.”

    Max Peterson, Vice President, Dell Federal: “We are proud of our work with NASA over the years and are excited to work with their expansion of NCCS. Its work plays a major part in advancing the scientific community’s understanding of climate change. NASA climate simulations use and produce vast amounts of data, which creates a demanding technology environment for HPC solutions. NCCS and many other leading government, academic and scientific institutions around the world need affordable, capable HPC platforms. Dell delivers purpose-designed HPC solutions but builds them on standardized, scalable technology that is easier to manage, maintain and upgrade.”

    About DELL

    Dell (NASDAQ: DELL) listens to its customers and uses that insight to make technology simpler and create innovative solutions that deliver reliable, long-term value.

    About NCCS

    The NASA Center for Climate Simulation (NCCS) is an integrated set of supercomputing, visualization and data interaction technologies designed to enhance NASA capabilities in weather and climate prediction research. NCCS is part of the NASA High-End Computing Program and serves the agency's Science Mission Directorate.

    Related Links:

    Dell HPC Solutions

    Dell Solutions for a Virtual Era

    Dell is a trademark of Dell Inc.

    Dell disclaims any proprietary interest in the marks and names of others.

    Photos/Multimedia Gallery Available: http://www.businesswire.com/cgi-bin/mmg.cgi?eid=6360377&lang=en

    新版Jacket支援NVIDIA GPU Tesla C2050(Fermi)加速MATLAB計算!!

    張貼者:2010/7/15 上午1:03honghutech zye   [ 已更新 2010/7/15 上午1:07 ]

    附件是Jacket V1.4 支援Tesla C2050(Fermi)的介紹,效能提昇挺不錯,有使用JacketMATLAB的朋友可以參考看看,在GPU環境的計算速度!!

     

     

    Initial customer testing has shown what they are calling “pretty impressive” results. Comparing a 1265 MHz Tesla C1060 running Jacket 1.3 with CUDA 2.3 and a 1025 MHz Fermi C2050 running Jacket 1.4 with CUDA 3.0, the results are as follows:

    Multiply-add (MAD), double precision on GPU, Fermi is 1.4x faster than Tesla for 4000x4000 matrices (2s vs 2.8s)

    2D 2-point (GRADIENT), single precision on GPU, Fermi is 3x faster than Tesla for 4000x4000 matrices (0.3s vs 0.9s)

    2D FFT (FFT2), double precision on GPU, Fermi is 2x faster than Tesla for 4000x4000 matrices (0.1s vs 0.2s)

    國家級GPU超級電腦運算競爭開始 - 日本東工大2.4PFLOPS超級電腦11月完成

    張貼者:2010/6/22 下午10:12kim kim   [ Cm Tsai 已於 2010/9/28 下午10:16 更新 ]

    http://www.ithome.com.tw/itadm/article.php?c=61875

     

     

    國家級GPU超級電腦運算競爭開始 - 日本東工大2.4PFLOPS超級電腦11月完成

    TSUBAME2.0的尖峰運算效能在Linpack測試下為1.4PFLOPS,可排入全球Top 500超級電腦第2名(理論值2.4PFLOPS為全球第1)。 

     

    東京工業大學宣布,日本第一部PFLOPS等級的次世代超級電腦TSUBAME2.0將在11月完工,這款與日本HP、日本微軟、NEC與NVIDIA合作的超級電腦可望排入全球第二名。 

    TSUBAME2.0比目前日本最快的超級電腦PRIMERGY BX900快12倍,採用Intel最新的Westmere-EP 2.93GHz處理器以及Fermi Architecture具有515GFLOPS運算能力的NVIDIA Tesla M2050圖形處理器,結合純量運算(scalar operation)與向量運算(vector operation),1408個節點中各有2個CPU與3個GPU,總運算效能達2391.35TFLOPS,720TB/Sec的記憶體頻寬則比前代TSUBAME1.0強化了40倍以上。 

    另外,TSUBAME2.0的尖峰運算效能在Linpack測試下為1.4PFLOPS,可排入全球Top 500超級電腦第2名(而理論值2.4PFLOPS為全球第1),因其以獨特水冷式設計、高效率電源供應器等將耗電量抑制在1MW,比TSUBAME1.0高出0.15MW,此數據也可望入選Green Top 500環保超級電腦;儲存工具由200TB的SSD固態硬碟、7.13PB的HDD傳統硬碟、8PB的磁帶硬碟組成,最快資料傳輸速率可達0.66TB/sec。
     
    負責主導計畫的東工大松岡聰教授表示,在2012年日本政府主導的神戶超級電腦計畫完成前,就算集結全日本的超級電腦也比不上TSUBAME2.0的運算速度,而且日本氣象局研發的次世代氣象模組ASUCA測試數據顯示,Top 500超級電腦第1名的Jaguar也只能跑出50TFLOPS的效能,TSUBAME2.0卻能使效能直上150TFLOPS,證明它因極高的記憶體頻寬與結構設計,實現了高效率的運算結果。 

    TSUBAME2.0預定今年11月完工,4年使用費含本體、儲存裝置、軟硬體設備、冷卻系統等約32億日圓;電費、技術支援費每年粗估約1億日圓,預定設置在東工大校區內約200平方公尺的區域中。過去TSUBAME1.0約有2000名使用者租用。(編譯/張嵐霆)

    1-10 of 28