gpu-programming

    6熱度

    2回答

    我有一個應用程序,可以在用戶系統中的GPU之間分配處理負載。基本上,每個GPU有一個CPU線程,當由主應用程序線程週期性地觸發時,它啓動一個GPU處理間隔。 考慮以下圖像(使用NVIDIA的CUDA分析器工具生成),以GPU處理間隔爲例 - 此處應用程序使用單個GPU。 正如你所看到的GPU處理時間的很大一部分是由兩個分揀作業消耗,我使用這個(推力:: sort_by_key)的推力庫。另外,在啓

    0熱度

    1回答

    我在GTX-Titan和Tesla K40c之間發現了這個基準測試比較結果(http://compubench.com/compare.jsp?config_0=14470292&config_1=18133965),結果看起來很奇怪。有人請解釋一下可能的原因。如果只執行單精度操作,特斯拉性能會有多大差異?

    2熱度

    1回答

    根據我對NVIDIA的CUDA架構的理解,線程的執行發生在32個稱爲'warps'的組中。一次安排多個經紗,並且從任何經紗發出指令(取決於一些內部算法)。 現在,如果我在設備上說16KB的共享內存,並且每個線程使用400字節的共享內存,那麼一個warp將需要400 * 32 = 12.8 KB。這是否意味着GPU不能一次安排超過1次的warp,而不管我在給定塊中啓動多少個線程?

    0熱度

    2回答

    也許我有點不清楚: 我想做什麼我要儘可能快地排序許多載體。 我有例如200個向量200雙。

    -4熱度

    1回答

    我想使用C++機器學習庫GPUMLib下載:http://sourceforge.net/projects/gpumlib/ 如何在Visual Studio中添加此項目以便使用它?

    0熱度

    1回答

    我從主機上的多媒體數據集提取功能,我想在從所有圖像中提取功能後執行一些處理任務。 特別是,我想要執行一系列操作,例如數據庫索引或散列的距離計算和預處理,可能會在GPU上加速。但是,與順序處理相比,傳輸大尺寸特徵陣列會導致性能降低並降低性能。 任何人都可以提出一種方法來處理需要傳輸大型數據集的大型數據密集型任務嗎?

    13熱度

    3回答

    我有樣本「Hello,World!」來自網絡的代碼,我想在我大學的服務器上的GPU上運行它。 CL/cl.h:當我鍵入 「GCC的main.c」,它與響應沒有這樣的文件或目錄 我該怎麼辦?我怎樣才能擁有這個頭文件?

    0熱度

    2回答

    我已經在CUDA中編寫了一個程序,該程序將在GPU(nvidia geforce 310m)上執行。在內核中,我使用了atomicMin函數。編譯並運行後,出現錯誤:「內核執行失敗:< 8>無效的設備功能」。我認爲這可能是由於我的卡不支持原子操作。我是對還是有其他要考慮的事情?通過運行原子操作的方式,我讀到了我需要在visual studio中進行更改:項目屬性 - > CUDA C/C++ -

    1熱度

    1回答

    我爲OpenCL構建了飛思卡爾i.MX6.Q平臺,並且獲得了有關它的有趣結果,我無法完全解釋。我的算法是通過執行4個內核完成的,最後一個是我在這裏感興趣的一個:經典的圖像差異。 我測試了兩個版本,一個矢量化版本和一個經典版本(沒有矢量化)。起初,我對一個並行化差異給出的結果感到驚訝:在這個平臺上,必須選擇OpenCL,只有要處理的圖像包含超過180kpix(在算法中,圖像被處理爲緩衝區)。 但是,

    1熱度

    1回答

    我仍在工作物理系統模擬流體。我重寫了我的應用程序使用PhysX 3.3.0,並更客觀,現在我有一個問題,我無法解決像一個星期或兩個。 這是我的PhysX上下文開始: void PhysXSPH::initContext(void){ static LogPxErrorCallback gLogPxErrorCallback; static PxDefaultAllocator