gpu-programming

    1熱度

    1回答

    我打與matrixMulCUBLAS示例代碼,並試圖改變默認的矩陣大小的東西稍微更有趣的行數= 5K x欄= 2.5K,然後例如失敗,在行#377錯誤Failed to synchronize on the stop event (error code unknown error)!當所有的計算完成它顯然是清理cublas。這是什麼意思?以及如何解決? 我有CUDA與EVGA FTW nVidia

    0熱度

    1回答

    我在OpenCL內核中編寫了自己的map和reduce函數。 MapReduce的一般場景基本上被包含在Hadoop中,它本身是用java編寫的。 如何在多節點羣集上的hadoop中使用我自己的C/OpenCL編寫的map-reduce代碼? 我已經問過這種類型的問題,但沒有得到任何答覆。任何教程鏈接都會很有用。 我願意自己讀,我找不到任何有關這方面的資源。任何形式的幫助將不勝感激。感謝您的時間和

    0熱度

    1回答

    我想用DirectX 11的計算着色器來做一些簡單但昂貴的計算(想想Mandelbrot Set)。計算結果放置在紋理上並且不重疊。這不是實時的,因爲它預計需要1到10秒,但它會在完成後立即顯示在UI上。 我使用WPF和SharpDX通過http://directx4wpf.codeplex.com/。該庫有一個DX11視圖對象,其中包含一個RenderScene函數,其中調用了DX渲染函數(包括

    2熱度

    1回答

    有沒有人知道如何在this youtube video中實現正確的剪影效果?實際上,我理解(併成功實現)了視差遮擋映射算法,但我沒有關於如何歸檔剪影效果的想法。 我在互聯網上發現了this paper,但它提供了非常有限的算法細節。

    0熱度

    1回答

    假設我有一個權重矩陣Wnxm其中m是變量的數量,n是實例的數量。我也有相同大小的數據矩陣X。我嘗試爲X中的每個實例找到最接近的權向量。但是這兩個矩陣都是如此的尺寸,因此簡單的方法是不夠的。我在MATLAB中嘗試了一些GPU技巧,但它不能很好地工作,因爲它是按順序計算每個實例最接近的順序的方法。我現在正在尋找高效的一次性代碼。這需要所有的W和X,並用一些可能會添加一些GPU的MATLAB技巧找到勝者

    3熱度

    1回答

    我有一個給內核的輸入數組。每個線程都與數組中的一個值一起工作,並根據規則改變值或完全不改變它。 我想很快就會發現輸入內存中是否有任何更改,如果有,我想很快找到發生此更改的位置(輸入數組的索引)。 我想過使用類似於位數組的東西。總的位數將等於線程總數。每個線程只會操縱一個位,所以最初這些位將被設置爲假,如果一個線程改變相應的輸入值,該位將變爲真。 爲了更清楚,讓我們假設我們有這個輸入數組稱爲A 1

    2熱度

    1回答

    我正在使用device_vector來存儲有關用戶輸入數據數組的信息。當我調用運行主算法的第二個內核時,爲了加快速度,這些信息是必需的。 第一個內核結束後,device_vector將只包含少量重要元素。因此,舉例來說,如果最初device_vector的大小爲10000,那麼最終只有10-20個元素將描述用戶輸入數據。 我現在正在做的是,我使用函數thrust::remove爲了刪除不必要的值,

    1熱度

    1回答

    我想頁面鎖定已創建的墊子。 考慮下面的示例代碼: ... Mat cpuGray; GpuMat gpuGray; cv::cvtColor (cpuColor, cpuGray, CV_BGR2GRAY); registerPageLocked(cpuGray); gpuStream.enqueueUpload(cpuGray, gpuGray); ... 在運行時,這個失敗:

    0熱度

    1回答

    我有一個精靈10x10像素。我如何使用着色器程序實時更改顏色。 精靈上的所有藍色都變爲綠色。 精靈上的所有綠色都變成了白色。 ETC ... Example of Sprite 10x10 這是例如測試着色器灰效果: #ifdef GL_ES precision mediump float; #endif varying vec2 v_texCoord; uniform sampler2

    4熱度

    1回答

    假設我們有一個數組int * data,每個線程將訪問這個數組的一個元素。由於這個數組將在所有線程之間共享,它將被保存在全局內存中。 讓我們創建一個測試內核: __global__ void test(int *data, int a, int b, int c){ ... } 我知道肯定的data陣列將在全局內存,因爲我使用cudaMalloc這個數組分配內存。現在至於其他變量,我已經看到了