gpu-programming

    -1熱度

    1回答

    我試圖在Android NI上運行vulkan API示例,我目前面臨一個問題。我能夠編譯LunarG提供的示例(https://github.com/LunarG/VulkanSamples/tree/master/API-Samples)並生成apk,但是在運行時物理設備Vulkan實例可訪問的數據將作爲無效值返回。因此,該應用崩潰 有關如何進一步處理的任何建議。

    -1熱度

    2回答

    我喜歡電腦圖形。 我想知道最快的引擎是具有以下功能: 繪製帶有4個顏色通道RGBA三角形,並允許點和方向燈的繪製。 紋理將是一個很酷的附加功能,但我再次尋找最快的引擎,而不是最實用的。相機動畫和對象動畫將勢在必行。 終於有了這個問題的2個答案,1個用於一般開發,一個用於網絡,但是如果你只能說一個或另一個,你的貢獻將不勝感激!

    0熱度

    1回答

    我可以獲得每個內核的warp_execution_efficiency,但是如何獲得我的程序的總warp_execution_efficiency?

    2熱度

    1回答

    所以我在GeForce GT 610上運行我的OpenCL程序。我知道CUDA會是一個更好的選擇,並且稍後我可以編寫我的代碼的CUDA版本,但是爲了知道我在OpenCL中編寫,能夠在AMD顯卡上運行。 初始化期間,我挑出一個設備運行。這是我的程序在這個階段打印出來的結果: OpenCL Platform 0: NVIDIA CUDA ----- OpenCL Device # 0: GeForc

    3熱度

    1回答

    我遇到了一個問題,我只想渲染兩個三角形(每個都存儲在單獨的緩衝區中),Metal API拒絕嘗試渲染第二個頂點緩衝區。我懷疑這是關於對齊。斷言消息是對於vertexArray [0],索引爲0的緩衝區綁定失敗的斷言'(長度 - 偏移量)(0)必須>> 32「。下面的代碼: 頂點和常量結構: struct VertexPositionColor { VertexPositionColor

    0熱度

    1回答

    我正在寫一個cuda c代碼來處理圖片,例如我創建了一個交換功能(交換矩陣的區塊),但它不工作,每次我都有問題,集團的數量和我的內核午餐時間線程數。 例如,如果我TAK尺寸2048 * 2048的圖像與 threadsPerBlock.x=threadsPerBlock.y=64和numBlocks.x=numBlocks.y=2048/threadsPerBlock.x 然後swap<<<thr

    4熱度

    3回答

    目前,我使用默認64作爲seq2seq tensorflow模型的批量大小。什麼是最大批量大小,圖層大小等,我可以與一個單一的Titan X GPU與12GB RAM和Haswell-E xeon 128GB RAM一起使用。輸入數據被轉換爲嵌入。以下是我使用的一些有用的參數,它看上去細胞輸入尺寸爲1024: encoder_inputs: a list of 2D Tensors [batch_

    14熱度

    2回答

    我無意中發現沒有一次進入「非一致」,並在相關的圖形programming.I一直在尋找一個簡單而明確的解釋 tech papers「相干」記憶,卻發現大多是「骨灰級」的論文this類型。我很樂意接受外行人的風格,回答關於GPU架構上的連貫內存,以及它與其他(可能不是連貫的)內存類型的比較。

    0熱度

    1回答

    我正在執行大量計算。每個計算都是獨立的,換句話說,任務可以並行化,我想將工作交給GPU。 具體來說,我創建光/陰影地圖OpenGL應用程序,並且計算一堆矢量運算,點產品,平方根等 什麼是我選擇這裏? OpenGL本身是否支持這樣的事情,還是應該尋找外部庫/模塊?

    1熱度

    1回答

    模擬管道程序說我有兩個陣列A和B和kernel1,通過打破陣列成不同的組塊並執行兩個陣列上的一些計算(矢量相加例如)和寫入部分結果來C。 kernel1然後繼續這樣做,直到處理數組中的所有元素。 unsigned int i = blockIdx.x*blockDim.x + threadIdx.x; unsigned int gridSize = blockDim.x*gridDim.x;