基于GPU集群的格子Boltzmann流體模擬并行計算的設(shè)計與實現(xiàn)

上傳人：細(xì)水****9 文檔編號：244833358 上傳時間：2024-10-06 格式：PPT 頁數(shù)：26 大小：1.46MB

收藏版權(quán)申訴舉報下載

基于GPU集群的格子Boltzmann流體模擬并行計算的設(shè)計與實現(xiàn)_第1頁

第1頁 / 共26頁

基于GPU集群的格子Boltzmann流體模擬并行計算的設(shè)計與實現(xiàn)_第2頁

第2頁 / 共26頁

基于GPU集群的格子Boltzmann流體模擬并行計算的設(shè)計與實現(xiàn)_第3頁

第3頁 / 共26頁

下載文檔到電腦，查找使用更方便

7 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《基于GPU集群的格子Boltzmann流體模擬并行計算的設(shè)計與實現(xiàn)》由會員分享，可在線閱讀，更多相關(guān)《基于GPU集群的格子Boltzmann流體模擬并行計算的設(shè)計與實現(xiàn)（26頁珍藏版）》請在裝配圖網(wǎng)上搜索。

1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,*,作者：,俸毅蘇智彬徐楊,指導(dǎo)老師：,覃章榮,廣西師范大學(xué) 計算機科學(xué)與信息工程學(xué)院,基于GPU集群的格子Boltzmann流體模擬,并行算法的設(shè)計與實現(xiàn),目錄,作品簡介,設(shè),設(shè)計方案,實驗分析,創(chuàng)新特色,1,2,3,4,一作品簡介,2.但是目前在基于LBM流體模擬中，使用GPU集群并行計算方面的研究,很少,。單個計算機由于硬件資源的限制，不能用于大規(guī)模流場的計算。集群并行計算成為實現(xiàn)低成本，高性能計算的

2、重要途徑之一,1.基于,LBM,(Lattice,Boltzmann,Method),的現(xiàn)代計算流體力學(xué)在航空、氣象、化工等領(lǐng)域獲得了廣泛的應(yīng)用。目前利用,CUDA,技術(shù)在單,GPU,上進行,LBM,加速計算的研究也,越來越多,通過對單機,CPU,、多機,CPU,、多機,GPU,三種方案的計算結(jié)果和效率對比分析，驗證其可行性及加速性能。為在普通計算機群上進行大規(guī)模復(fù)雜計算，提供一種,低成本、高性能,的解決方案,本項目,使用MPI+CUDA技術(shù),在由,多GPU,組成的集群上,進行LBM,流體模擬,并行計算,，,并以方腔,流為,算例，驗證,在多,GPU,集群上進行,LBM并行計算的可行性和加速性能

3、,一項目簡介,項目背景,項目目標(biāo),二特色創(chuàng)新,格子玻爾,茲曼方法,使用配置有支持,CUDA,技術(shù),的,GPU,顯卡的普通計算機組成,集群,，并在集群上使用,MPI+CUDA,技術(shù)實現(xiàn)了基于,LBM,流體模擬的并行計算，實驗驗證了其可行性和加速性能，我們最高獲得,72.32,倍的加速比。該方案解決了目前基于單,GPU,計算機由于硬件資源限制而無法處理大規(guī)模計算流場的問題，同時獲得非?？捎^的加速性能。為在普通計算機群上進行大規(guī)模復(fù)雜科學(xué)計算，提供一種,低成本、高性能,的解決方案。,三設(shè)計方案,實現(xiàn)流程,(1),1,設(shè)計一個正確的,單CPU,程序,。用于實現(xiàn)單機計,算方腔流算例，實現(xiàn)流,程如右

4、圖所示。,2,在,單CPU程序的基礎(chǔ)上，通過使用MPI技術(shù)，擴展到CPU集群上，實現(xiàn)基于,MPI,的多CPU程序,。,實現(xiàn)流程如右圖所示。,三設(shè)計方案,實現(xiàn)流程,(2),3,在實現(xiàn)基于,MPI,的多,CPU程序的基礎(chǔ)上，通過使用,CUDA,技術(shù)，擴展到,G,PU集群上，實現(xiàn),MPI+GPU,集群程序,。,實現(xiàn)流程如右圖所示。,三設(shè)計方案,實現(xiàn)流程,(3),三設(shè)計方案,關(guān)鍵技術(shù),(1),集群中多機通信方案,交換機,網(wǎng)卡,CPU,GPU,計算機,1,網(wǎng)卡,CPU,GPU,計算機,2,網(wǎng)卡,CPU,GPU,計算機,3,網(wǎng)卡,CPU,GPU,計算機,4,實驗方案的集群構(gòu)成示例如下所示，集群中各計

5、算機之間的數(shù)據(jù)通信，我們采用目前流行的,MPI,（,Message Passing Interface,，消息傳遞接口）來實現(xiàn)。,三設(shè)計方案,關(guān)鍵技術(shù),(2),計算流場網(wǎng)格子區(qū)塊劃分方案,對于,LBM,來說，計算流場網(wǎng)格子區(qū)塊的劃分通常包括縱向劃分、橫向劃分、棋盤劃分,3,種方案。棋盤劃分方案會造成邊界格點數(shù)據(jù)交換時通信量增多，增大了程序開發(fā)難度，降低了計算效率。橫向和縱向劃分時邊界格點交換數(shù)據(jù)時通信量均較少，而縱向劃分比較符合常人的習(xí)慣，因此，我們選擇,縱向劃分方案,。,（,b,）橫向劃分,（,c,）棋盤劃分,（,a,）縱向劃分,三設(shè)計方案,關(guān)鍵技術(shù),(3),集群中各子計算區(qū)塊邊界格點數(shù)

6、據(jù)交換方案,當(dāng)計算流場網(wǎng)格劃分為多個子區(qū)塊并分配到集群的各計算機中，在格點粒子分布函數(shù)流動時，各子區(qū)塊邊界格點的數(shù)據(jù)要交換到鄰居計算機的子區(qū)塊的邊界中。為了能夠計算方便，在每個子區(qū)塊兩側(cè)邊界處，各增加一層虛邊界，用來存放從從其他計算機遷移過來的數(shù)據(jù)，這樣可以使得在每個計算機內(nèi)都可以完成子區(qū)塊數(shù)據(jù)的碰撞和流動，過程如下圖所示（圖中每個子區(qū)塊的藍色為實際邊界，白色為增加的虛邊界）。,三設(shè)計方案,關(guān)鍵技術(shù),(4),基于CUDA的并行數(shù)據(jù)存儲結(jié)構(gòu)設(shè)計方案,根據(jù),CUDA,的要求，為了高效地訪問,GPU,全局內(nèi)存，必須把要訪問數(shù)據(jù)存儲在同一連續(xù)地址內(nèi)，實現(xiàn)合并訪問。我們的方案是在,GPU,的全局內(nèi)存中

7、創(chuàng)建一個一維數(shù)組用來存放全部,D2Q9,模型格子,9,個方向的粒子分布函數(shù)值，先順序存放所有格點的,0,方向的粒子分布函數(shù),f0,，接著是,1,方向的,f1,依次類推一直到,f8(,如下圖所示,),，這樣可以實現(xiàn)合并訪問，提高效率,。,.,f0,f1,f8,所有格點,f0,所有格點,f1,f2f7,所有格點,f8,D2Q9,模型,三設(shè)計方案,關(guān)鍵技術(shù),(5),基于CUDA內(nèi)核函數(shù)的設(shè)計與實現(xiàn),CUDA,程序中在,GPU,上并行執(zhí)行的代碼，被組織成內(nèi)核（,Kernel,），內(nèi)核就是在,GPU,中被線程并行地執(zhí)行的函數(shù)。我們把程序中并行部分設(shè)計成,2,個內(nèi)核函數(shù)：,碰撞內(nèi)核函數(shù)和流動內(nèi)核函數(shù),，

8、將計算流場中每個格點映射到一個,GPU,線程上，每個線程按照,LBM,中的碰撞和流動公式同時并行地進行演化計算。,實驗環(huán)境介紹,實驗環(huán)境,CPU,：,Intel Core i5-,2400,2.80GHz 4,核,GPU,：,NVIDIA GeForce GT 4,2,0,顯卡，顯存容量,1024MB,，,顯存頻率,800MHz,，流處理單元,48,個,操作系統(tǒng),：,Windows,X,P,軟件平臺,：,Visual Studio 2008,，,MPICH2,為了驗證本程序的,可行性,與,計算性能,，選擇,二維頂蓋驅(qū)動方腔,流,為實驗算例,四實驗分析,4臺MPI+GPU集群程序運行截圖,程序

9、開始運行截圖,程序結(jié)束運行截圖,使用單,CPU,程序模擬,的頂蓋驅(qū)動方腔流示意圖,4,臺集群，使用,MPI,程序模擬,的頂蓋驅(qū)動方腔流示意圖,4臺集群，使用,MPI+,GPU,程序模擬,的頂蓋驅(qū)動方腔流示意圖,四實驗分析,如圖4臺集群的三種方案計算,結(jié)果相,吻合,。同樣，2臺集群、,8臺集群的實驗結(jié)果,亦相吻合,流場大小,256X256,運行,10000,步時三種,方案結(jié)果對比,四實驗分析,使用,2臺,計算機組成的集群運行,10000,步的時間和加速比對比情況,流場大小,單CPU程序,MPI集群用,加速比,MPI+GPU集,加速比,64*64,19.219,14.61,1.31,18.47

10、8,1.04,128*128,78.062,52.390,1.49,56.160,1.39,256*256,131.235,85.774,1.53,60.058,2.19,512*512,532.750,245.51,2.17,100.708,5.29,640*640,850.5310,338.418,2.51,111.765,7.61,1152*1152,2763.790,576.99,4.79,205.639,13.44,1792*1792,6675.951,1306.49,5.11,379.747,17.58,四實驗分析,使用,2,臺,計算機組成的集群運行,10000,步的加速比折線圖

11、,四實驗分析,使用,4臺,計算機組成的集群運行,10000,步的時間和加速比對比情況,流場大小,單,CPU,程序,MPI,集群用,加速比,MPI+GPU,加速比,64*64,19.219,11.439,1.68,15.499,1.24,128*128,78.062,40.87,1.91,36.307,2.15,256*256,131.235,58.587,2.24,50.282,2.61,512*512,532.750,191.637,2.78,93.79,5.68,640*640,850.5310,224.414,3.79,106.936,7.95,1152*1152,2763.790,3

12、77.566,7.32,165.60,16.96,1792*1792,6675.951,507.600,13.152,285.541,23.38,四實驗分析,使用,4臺,計算機組成的集群運行,10000,步的加速比折線圖,四實驗分析,使用,8臺,計算機組成的集群運行,10000,步的時間和加速比對比情況,流場大小,單CPU程序,MPI集群用,加速比,MPI+GPU,加速比,64*64,19.219,24.781,0.775,30.506,0.63,128*128,78.062,20.218,2.358,36.307,2.15,256*256,131.235,37.603,3.49,48.

13、072,8.06,512*512,532.750,67.097,7.94,91.853,13.78,640*640,850.5310,83.141,10.23,114.936,20.69,1152*1152,2763.790,111.849,24.71,245.452,43.12,1792*1792,6675.951,201.995,33.05,375.475,72.37,四實驗分析,使用,8臺,計算機組成的集群運行,10000,步的加速比折線圖,四實驗分析,使用,2臺,、,4臺,、,8臺,計算機組成的集群運行,10000,步的加速比,折線圖,四實驗分析,使用,2臺,、,4臺,、,8臺,

14、計算機組成的集群運行,10000,步的加速比,柱狀圖,總結(jié)分析,在流場比較小時（如64*64），MPI和MPI+,CUDA,方式加速優(yōu)勢并未能,體現(xiàn)。因為MPI和MPI+CUDA方式的時間基本花費在了通信上,當(dāng)流場128時，MPI和MPI+,CUDA,方式的加速性能比CPU有明顯的,提升，而且加速比隨著計算流場規(guī)模的增大而增大,隨著集群中的,計算機的數(shù)量,增加，MPI和MPI+,CUDA,方式的加速比,也會明顯增加,結(jié)論,在,CUDA框架下,設(shè)計和實現(xiàn)了在多GPU上基于LBM的方腔流,模擬的并行算法。與單CPU、MPI對比結(jié)果表明在多個GPU,上基于LBM的流體模擬并行計算是,完全可行,的；使用多GPU,后，加速性能得到了大幅度的提高，展示了集群GPU在科學(xué),計算方面強大的計算能力，說明了使用集群GPU并行計算，,可以極大地提高計算效率。采用我們的方案,低成本,，,高性能,敬請您批評指正謝謝,！,

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

基于GPU集群的格子Boltzmann流體模擬并行計算的設(shè)計與實現(xiàn)

最新文檔

相關(guān)資源

相關(guān)搜索