只是出於好奇：linux內核如何「優化」strcpy比libc imp慢得多？

我試圖基準優化的字符串操作http://lxr.linux.no/#linux+v2.6.38/arch/x86/lib/string_32.c下，並比較正規的strcpy：只是出於好奇：linux內核如何「優化」strcpy比libc imp慢得多？

#include<stdio.h> 
#include<stdlib.h> 
char *_strcpy(char *dest, const char *src) 
{ 
     int d0, d1, d2; 
     asm volatile("1:\tlodsb\n\t" 
       "stosb\n\t" 
       "testb %%al,%%al\n\t" 
       "jne 1b" 
       : "=&S" (d0), "=&D" (d1), "=&a" (d2) 
       : "0" (src), "1" (dest) : "memory"); 
     return dest; 
} 
int main(int argc, char **argv){ 
     int times = 1; 
     if(argc >1) 
     { 
       times = atoi(argv[1]); 
     } 
     char a[100]; 
     for(; times; times--) 
      _strcpy(a, "Hello _strcpy!"); 


     return 0; 
}

，並使用timeing它（時間..）表明，它是大約比普通的strcpy X10慢（在x64的Linux）

爲什麼？

來源

2011-05-08 GabiMe

如果字符串不變，編譯器可能會將副本內聯（用於純調用strcpy調用），使其成爲一系列無條件的MOV指令。因爲這是沒有條件的線性代碼，所以它會比linux變種更快。

來源

2011-05-08 13:57:14 Hasturkun

@ bugspy.net - 你能得到生成的代碼的程序集清單，看看是否是這種情況？ – 2011-05-08 14:03:25

我試圖不使用常量字符串。現在內核imp正在贏得：0.72秒（對於使用libc的9999999次迭代vs 0.89），使用-02開關 – GabiMe 2011-05-08 14:14:28

只是出於好奇：linux內核如何「優化」strcpy比libc imp慢得多？

回答

相關問題