我想與英特爾的SSE一起邁出第一步,所以我遵循指南here,區別在於不是爲Windows和C++開發,而是爲Linux和C開發(因此我請勿使用任何_aligned_malloc
,但posix_memalign
)。SSE優化代碼執行類似於普通版本
我還實現了一個不使用SSE擴展的密集計算方法。令人驚訝的是,當我運行這個程序時,兩個代碼片段(一個與SSE相關,另一個沒有)運行的時間相似,通常是使用SSE的時間略高於其他時間。
這是正常的嗎? GCC是否可以通過SSE進行優化(也使用-O0
選項)?我也嘗試了-mfpmath=387
選項,但沒辦法,依然如此。
你在用什麼CPU? –
我使用英特爾酷睿i7 M640 2.80GHz –
行 - 請參閱下面的答案,您可能還想發佈您的代碼和您用於構建它的命令行。 –