gpu-programming

-1熱度

1回答

我試圖在Android NI上運行vulkan API示例，我目前面臨一個問題。我能夠編譯LunarG提供的示例（https://github.com/LunarG/VulkanSamples/tree/master/API-Samples）並生成apk，但是在運行時物理設備Vulkan實例可訪問的數據將作爲無效值返回。因此，該應用崩潰有關如何進一步處理的任何建議。

-1熱度

2回答

什麼是繪製大量半透明三角形的最快引擎？

我喜歡電腦圖形。我想知道最快的引擎是具有以下功能：繪製帶有4個顏色通道RGBA三角形，並允許點和方向燈的繪製。紋理將是一個很酷的附加功能，但我再次尋找最快的引擎，而不是最實用的。相機動畫和對象動畫將勢在必行。終於有了這個問題的2個答案，1個用於一般開發，一個用於網絡，但是如果你只能說一個或另一個，你的貢獻將不勝感激！

0熱度

1回答

CUDA扭曲執行效率

我可以獲得每個內核的warp_execution_efficiency，但是如何獲得我的程序的總warp_execution_efficiency？

2熱度

1回答

OpenCL：GPU上的單個計算設備？

所以我在GeForce GT 610上運行我的OpenCL程序。我知道CUDA會是一個更好的選擇，並且稍後我可以編寫我的代碼的CUDA版本，但是爲了知道我在OpenCL中編寫，能夠在AMD顯卡上運行。初始化期間，我挑出一個設備運行。這是我的程序在這個階段打印出來的結果： OpenCL Platform 0: NVIDIA CUDA ----- OpenCL Device # 0: GeForc

3熱度

1回答

使用Apple的金屬渲染第二個頂點緩衝區

我遇到了一個問題，我只想渲染兩個三角形（每個都存儲在單獨的緩衝區中），Metal API拒絕嘗試渲染第二個頂點緩衝區。我懷疑這是關於對齊。斷言消息是對於vertexArray [0]，索引爲0的緩衝區綁定失敗的斷言'（長度 - 偏移量）（0）必須>> 32「。下面的代碼：頂點和常量結構： struct VertexPositionColor { VertexPositionColor

0熱度

1回答

Cuda內核配置

我正在寫一個cuda c代碼來處理圖片，例如我創建了一個交換功能（交換矩陣的區塊），但它不工作，每次我都有問題，集團的數量和我的內核午餐時間線程數。例如，如果我TAK尺寸2048 * 2048的圖像與 threadsPerBlock.x=threadsPerBlock.y=64和numBlocks.x=numBlocks.y=2048/threadsPerBlock.x 然後swap<<<thr

4熱度

3回答

如何確定seq2seq張量流RNN訓練模型的最大批量大小

目前，我使用默認64作爲seq2seq tensorflow模型的批量大小。什麼是最大批量大小，圖層大小等，我可以與一個單一的Titan X GPU與12GB RAM和Haswell-E xeon 128GB RAM一起使用。輸入數據被轉換爲嵌入。以下是我使用的一些有用的參數，它看上去細胞輸入尺寸爲1024： encoder_inputs: a list of 2D Tensors [batch_

14熱度

2回答

什麼是GPU上的連貫內存？的

我無意中發現沒有一次進入「非一致」，並在相關的圖形programming.I一直在尋找一個簡單而明確的解釋 tech papers「相干」記憶，卻發現大多是「骨灰級」的論文this類型。我很樂意接受外行人的風格，回答關於GPU架構上的連貫內存，以及它與其他（可能不是連貫的）內存類型的比較。

0熱度

1回答

對GPU的偏移計算

我正在執行大量計算。每個計算都是獨立的，換句話說，任務可以並行化，我想將工作交給GPU。具體來說，我創建光/陰影地圖OpenGL應用程序，並且計算一堆矢量運算，點產品，平方根等什麼是我選擇這裏？ OpenGL本身是否支持這樣的事情，還是應該尋找外部庫/模塊？

1熱度

1回答

與CUDA

模擬管道程序說我有兩個陣列A和B和kernel1，通過打破陣列成不同的組塊並執行兩個陣列上的一些計算（矢量相加例如）和寫入部分結果來C。 kernel1然後繼續這樣做，直到處理數組中的所有元素。 unsigned int i = blockIdx.x*blockDim.x + threadIdx.x; unsigned int gridSize = blockDim.x*gridDim.x;