1
我正在嘗試將openmp應用於下面的代碼片段中,如下所示。然而,並行代碼的運行速度比沒有openmp派生函數的代碼慢。我在64位Linux平臺上運行,並使用gfortran進行編譯。 您對如何正確使用它的意見和建議表示感謝!openmp fortran代碼比串行代碼運行速度慢
call omp_set_num_threads(4)
do i = 2, natoms - 1
rti(1:3) = R_for(i,1:3)
fti(1:3) = ftmp(i,1:3)
!$OMP PARALLEL DO DEFAULT(SHARED)&
!$OMP& private(rtij,rsqij,rsqijinv,sr2,sr6,sr12,vij,wij,fij,ftij,ncut)&
!$OMP& REDUCTION(+:vtmp,wtmp,ftmp,fti) &
!$OMP& firstprivate(i,rti,R_for)
do j = i + 1, natoms
rtij = rti - R_for(j,1:3)
rtij = rtij - boxl*idnint(rtij*boxlinv)
rsqij = sum(rtij**2)
if(rsqij.lt.rcutsq) then
rsqijinv = 1d0/rsqij
sr2 = sigsq*rsqijinv
sr6 = sr2*sr2*sr2
sr12 = sr6*sr6
vij = sr12 - sr6
vtmp = vtmp + vij
wij = vij + sr12
wtmp = wtmp + wij
fij = wij*rsqijinv
ftij = fij*rtij
fti = fti + ftij
ftmp(j,1:3) = ftmp(j,1:3) - ftij(1:3)
ncut = ncut + 1
endif
enddo
!$OMP END PARALLEL DO
ftmp(i,1:3) = fti(1:3)
enddo
爲並行化設置「線程」需要花費成本,所以如果它沒有做太多或者它們阻止訪問公共資源,那麼它不會更快,實際上它可能會更慢。整理你的代碼,把它做成平行的代碼,以及一些模糊的線索,說明它的做法是否合適。 –
我已刪除評論並清理代碼。我主要想知道兩件事情:1.在我沒有發現的並行循環中是否有看不見的依賴。 2.任何其他方式來改善它 – user1509376