intel

    0熱度

    1回答

    比方說,我有4個浮點矢量: __m128 vector = |f0|f1|f2|f3| (pseudocode) 我的目的是變量轉換成這樣: |0.0|f0|f1|f2| 做一個右移似乎是最簡單的選擇,但我一直沒能找到這樣一種可用於浮筒的內在物質。 什麼是最快的方法來實現這一目標?

    0熱度

    1回答

    是否可以查詢每個內核的執行單元/端口數量以及英特爾CPU上的類似信息? 我有一個彙編程序,並注意到性能上的不同CPU的完全不同。例如,在Core i5 4570上,某些功能需要比Core i7 4970HQ持續25%的週期才能完成。它們都是同一代Haswell的。基準程序中沒有記憶運動。所以我想也許差異來自執行單元數量,端口數量等細節。基準測量單核CPU週期,所以頻率/ HT等不起作用。 我有權對

    0熱度

    1回答

    剛開始使用內在函數,並觸及某些暴露了我的無知的內容。下面是我所看到的人造版本(VS2015): __m128i test; //test.m128i_u16[0] = 127; //test.m128i_u16[1] = 128; //test.m128i_u16[2] = 129; //test.m128i_u16[3] = 130; //test.m128i_u16[4] = 13

    9熱度

    2回答

    編輯3:該圖像爲全尺寸版本的鏈接。對不起,圖片的文字,但圖表很難複製/粘貼到文本表。 我有以下VTune™可視化簡檔用於與icc --std=c++14 -qopenmp -axS -O3 -fPIC編譯的程序: 在該簡檔中,指令兩個簇在裝配視圖突出顯示。儘管指令是相同的並且順序相同,但上部羣集的時間比下部時間少得多。兩個集羣都位於相同的功能內,顯然都稱爲n次。每當我運行探查器時,都會發生這種情況

    0熱度

    1回答

    我在我的pintool中有這個全局變量,並且我想獲取它在指令(我的儀器功能)中的內容。 UINT32 windowCnt=0; LOCALFUN VOID Instruction(INS ins, VOID *v) { const AFUNPTR InsRefFun = ((wcount % 2)==0 ? (AFUNPTR) InsRef_Skip : (AFUNPTR) In

    12熱度

    1回答

    這張顯卡是否兼容tensorflow/GPU? *-display description: VGA compatible controller product: Haswell-ULT Integrated Graphics Controller vendor: Intel Corporation physical id: 2 bus in

    0熱度

    1回答

    在此第一影像放功能,我想聲明一個變量,將被用於製作條件字符串,如果用戶名是輸入如果字符串有5個號碼是將標籤爲EmployeeID,如果字符串有10個數字,它將被標記爲studentID。 所以,在我創建一個應用的用戶界面,員工和學生將然後評估。

    0熱度

    1回答

    我正在開發一個項目,我需要在不使用路由器的情況下在英特爾Edison和移動設備之間傳輸數據(希望實現跨平臺兼容性)。我考慮過Wi-Fi Direct,但這不適用於iOS,只適用於少數的Android設備。此外,在「英特爾Edison Wi-Fi指南」(下面的鏈接)中,它會告訴您如何使用ad hoc模式,但只能在兩個英特爾Edison設備之間使用。我也不確定Android設備是否可以連接到ad ho

    10熱度

    1回答

    有人可以解釋Intel Intrinsic Guide中給出的延遲和吞吐量值嗎? 我是否正確地理解延遲是指令運行所需的時間單位數量,吞吐量是每個時間單位可以啓動的指令數量? 如果我的定義是正確的,爲什麼在較新的CPU版本上某些指令的延遲更高(例如mulps)?

    0熱度

    1回答

    我正在爲運行在Intel core i7 6500U CPU (Skylake)上的視頻解碼應用程序構建動態電壓頻率縮放(DVFS)算法。該應用程序既支持軟件也支持硬件解碼器模塊,軟件解碼器按預期工作。它控制最終控制工作電壓的CPU的工作頻率,從而降低整體能耗。 我的問題是關於在執行硬件解碼的Intel skylake處理器(Intel HD graphics 520)中可用的硬件解碼器。兩個解碼