openacc

    3熱度

    1回答

    是否可以在OpenACC區域中使用bitset的功能? 一個例子的代碼: #include <string.h> #include <bitset> #pragma acc routine seq int mystrcmp (const char *, const char *); int main(int argc, char** argv) { long sum = 3,

    1熱度

    1回答

    我有一個簡單的CUDA代碼,我翻譯成OpenACC。我的所有內核都按預期進行了並行處理,並且它們與我的CUDA內核具有相似的性能。但是,設備到主機的內存傳輸殺死了我的性能。在我的CUDA代碼中,我使用固定內存,性能更好。不幸的是,在OpenACC中,我不知道如何利用固定內存。我在文檔中找不到任何東西。有人能給我提供一個簡單的OpenACC示例,它使用固定內存嗎? PS:我使用PGI 16.10-0

    0熱度

    1回答

    我有一個要由OpenACC加速的任務。我需要在內核計算中進行動態內存分配。我爲它構建了一個更簡單的演示,如下所示。 #include <iostream> using namespace std; #pragma acc routine seq int *routine(int init) { int *ptr; #pragma acc data create(ptr

    0熱度

    1回答

    我有一個for循環,如果目標硬件是NVIDIA,我希望將其與OpenACC並行化,或者在目標硬件是AMD時串行運行它。我試過如下: #pragma acc loop \ device_type(tesla) parallel \ device_type(radeon) seq for (int z = 0; z < size_z; ++z) { // do stu

    1熱度

    1回答

    我的問題是關於在主機和設備之間的不同異步隊列中傳輸多個陣列的效果。 假設我們有四組: double *a, *b, *c, *d; 而且,每個已分配與N大小。 a = (double*) malloc(N * sizeof(double)); b = (double*) malloc(N * sizeof(double)); c = (double*) malloc(N * sizeof(

    0熱度

    1回答

    當我試圖編譯我的代碼在OpenACC的,它會報告: PGCC-S-0000-Internal compiler error. Call in OpenACC region to support routine - _mp_malloc (/home/lisanhu/mine/ws/C/AccSeqC/as_align.cc: 92) PGCC-S-0155-Compiler failed to

    0熱度

    1回答

    雖然編譯OpenACC的代碼,我得到以下警告 215,標量爲環線後需要X最後一個值239 在線路迴路y的後需要標上一個值239 標標最後一個值在240行的循環後需要的最後一個值 第240行的y循環後需要的標量最後一個值 242行的循環後所需的標量最後一個值 第242行的y循環後所需的標量最後一個值 標量最後一個值在循環後需要在線246,248 標量在循環後需要的最後一個值在線248,252 這樣的

    0熱度

    1回答

    我知道GCC 6.x有一個體面的OpenACC支持。但我想確定它是否可以在我的電腦上正常工作。我試過 #include <stdio.h> #include <openacc.h> int main(int argc, char *argv[]) { acc_device_t dev = acc_get_device_type(); int num = acc_get_

    0熱度

    1回答

    使用以下虛擬代碼來複制問題。 program pp implicit none real*8,dimension(45) :: refPoints refPoints(:) = (/ -1.0 , 1.0 , 1.0 , -1.0 , -1.0 , 1.0 , 1.0 , -1.0 , 0.0 , 1.0 , 0.0 , -1.0 , 0.0 , 1.0 , 0.0

    0熱度

    2回答

    RBM算法是開源的算法 的源代碼可以在這裏找到:https://github.com/yusugomori/DeepLearning/tree/master/cpp 我嘗試用不同的方式來獲得改善與OpenACC的,但連續的代碼仍然更好 所以你告訴我應該做什麼(部分需要改進)以獲得高度改進 #include <iostream> #include <math.h> #include "utils