• 部落格首頁
    部落格首頁 這裡可以至部落格首頁,閱讀所有的文章
23
May

Hardware Acceleration - GPU Comparison

發佈 計算效能
  • 字體: 放大 縮小
  • 點閱: 1884

NVIDIA最近發佈了Quadro GP100顯卡,為使用於GPU加速計算與圖形加速顯示的新型高階設備。這片卡為主動冷卻(卡上帶風扇),因此可用於塔型工作站和伺服器,透過適當的散熱配置,可以置於辦公桌旁而不一定得使用於機房內機架式的機器。如Tesla P100卡為被動散熱,需透機箱的風扇直接散熱,無法直接使用於塔型的工作站或伺服器。透過CST HPC團隊的努力,目前在Pascal產品中的工作站和伺服器/集群系統(cluster)在CST STUDIO SUITE 2017上,都有很好的技術解決方案。

不管是Quadro GP100或是Tesla P100, 自CST STUDIO SUITE 2017 SP 2版本起,均完全支持此Pascal系列。以下由HPC團隊的基準測試(Benchmarking),將GPU性能與雙Xeon E5-2697 v4進行比較。關於GPU的性能,使用於Linux(CentOS / RHEL 6.x / 7.x)和Windows(Server 2012 R2)的性能幾乎是相同。

 Hardware Acceleration GPU 2017

為了解使用GPU性能的增益,上圖為使用一片GPU以與單純僅用CPU的計算的比較。以T solver(transient solver)而言,只有在計算時域訊號的時候會在GPU上工作(即transient portion或稱為solver run); 矩陣的形成和後處理則使用CPU,而非GPU。而與總模擬時間相比,solver run的模擬通常是最耗時的部分,因此,如是計算具有多個端口(port)的模型,需要完整的S參數結果(full matrix S-parameter),則加速的效果會更加顯著,也就是說,port數愈多加速的效果愈顯著。

另一有趣的現象為 "為什麼A-solver (Asymptotic solver)在Pascal系列的卡效果這麼顯著"?實際上,A-solver是一種約束算法(bound algorithm),不僅受益於CPU多核心系統的可擴展性(scalability),同時也受益於GPU性能(例如,P100的倍精度為4.7 TFLOPS,而作為CPU的E5-2697 v4的倍精度峰值在此計算的平台為1.6 TFLOPS)。

CST 2017版的PIC solver也可以支援至8個GPU。


LINE-Join

 

標籤: Acceleration GPU

評論

Go to top