gpu-programming

    -1熱度

    1回答

    我打算購買一臺筆記本電腦,用GPU和多核CPU研究並行計算。我不知道雙核i7-3540M 3.0 GHz和四核酷睿i7-3632QM 2.2 GHz之間哪個更好。兩個latops都有一個Nvidia GT 650顯卡。據我所知,在GPU計算中,只有一個CPU核心可以使用。因此,具有更高時鐘速度的雙核心可以通過更好的性能計算來實現?有人請給我任何建議嗎?我真的很感激任何答覆。謝謝。

    0熱度

    2回答

    我正在opencl中開發一個應用程序,其基本目標是在GPU平臺上實現數據挖掘算法。我想使用Hadoop分佈式文件系統並希望在多個節點上執行該應用程序。我正在使用MapReduce框架,並將我的基本算法分爲兩部分,即'Map'和'Reduce'。 我從來沒有在Hadoop中工作過,所以我有一些問題: 我必須用Java寫我的應用程序只使用Hadoop和Mapeduce框架? 我已經編寫了map和ope

    -4熱度

    1回答

    是否可以訪問GigaThread全局調度程序的代碼? 我的意圖是知道調度程序在給定的時刻調用了多少個SM(假設GigaThread全局調度程序是調度程序負責確定特定SM需要使用多少SM和哪些SM應用)。那麼有什麼方法可以讓調度程序保持日誌並在每次爲具有SM數量或SM的ID的應用程序採用一組新的SM時更新它? 這將幫助我查看日誌文件,以檢查調度程序最近採用了多少SM,只要我需要這些信息。

    -1熱度

    1回答

    我目前的CUDA代碼比CPU代碼慢3-4倍左右。 我刪除了所有無關的CPU/GPU傳輸,因此大部分計算都是在GPU上完成的,只有最終結果被傳回CPU內存。 爲了加快速度,我做了一些閱讀並發現,由於GPU內存總線速度較慢,所以訪問GPU設備內存也很慢。而且,由於我的計算使用大型陣列 - 因此許多內存訪問 - 即使我將threadsPerBlock設置爲1024的最大值,這也會減慢速度。 我猜我現在唯

    2熱度

    1回答

    我想要一個.cuh文件,我可以在其中聲明內核函數和主機函數。這些功能的實現將在.cu文件中進行。該實施將包括使用Thrust庫。 在main.cpp文件中,我想使用.cu文件中的實現。所以我們可以說,我們有這樣的事情: : myFunctions.cuh #include <thrust/sort.h> #include <thrust/device_vector.h> #include <t

    0熱度

    1回答

    我試圖使用CUDA FFT aka cufft庫 cufftPlan1d(..)引發異常時發生問題。 #define NX 256 #define BATCH 10 cufftHandle plan; cufftComplex *data; cudaMalloc((void**)&data, sizeof(cufftComplex)*NX*BATCH);

    0熱度

    1回答

    我剛剛開始與CUDA,並試圖圍繞CUDA減少算法包裹我的大腦。就我而言,我一直試圖獲得兩個矩陣的點積。但是對於只有大小爲2的矩陣,我得到了正確的答案。對於任何其他大小的矩陣,我錯了。 這只是測試,所以我保持矩陣大小非常小。只有大約100塊,所以只有1塊可以滿足所有需求。 任何幫助將不勝感激。謝謝! 這裏是常規代碼 float* ha = new float[n]; // matrix a flo

    2熱度

    1回答

    我對Cuda很新,我從書中閱讀了幾章,並在線閱讀了很多教程。我已經對矢量加法和乘法做了我自己的實現。 我想進一步移動一下,所以我們假設我們要實現一個函數,該函數將一個有序的整數數組作爲輸入。 我們的目標是找到數組中每個整數的頻率。 依次我們可以掃描陣列一次以產生輸出。時間複雜度將是O(n)。 由於組別不同,我認爲必須有可能利用CUDA。 假設這是陣列 1 1 1 1

    1熱度

    1回答

    而不是使用'setKernelArg'將參數傳遞給內核函數,我們可以使用extern? 例如: cl_mem countMobj; //device variable 假設我有這個變量傳遞給內核函數。我可以聲明存儲類說明符extern來傳遞地址而不是通過'setKernelArg'傳遞嗎?

    0熱度

    1回答

    With reference to my previous question 我懷疑是如何與其他語言配置HDFS。無法找到合適的教程來將HDFS與opencl/cuda代碼結合在一起。我已經編寫了我自己的代碼,用於opencl中的Map和Reduce。 Map和Reduce功能都是GPU的內核功能。現在我想在多個節點上使用HDFS來實現我的代碼。 有人請告訴我在HADOOP框架下實現GPU/Ope