4
我試圖基準優化的字符串操作http://lxr.linux.no/#linux+v2.6.38/arch/x86/lib/string_32.c下,並比較正規的strcpy:只是出於好奇:linux內核如何「優化」strcpy比libc imp慢得多?
#include<stdio.h>
#include<stdlib.h>
char *_strcpy(char *dest, const char *src)
{
int d0, d1, d2;
asm volatile("1:\tlodsb\n\t"
"stosb\n\t"
"testb %%al,%%al\n\t"
"jne 1b"
: "=&S" (d0), "=&D" (d1), "=&a" (d2)
: "0" (src), "1" (dest) : "memory");
return dest;
}
int main(int argc, char **argv){
int times = 1;
if(argc >1)
{
times = atoi(argv[1]);
}
char a[100];
for(; times; times--)
_strcpy(a, "Hello _strcpy!");
return 0;
}
,並使用timeing它(時間..)表明,它是大約比普通的strcpy X10慢(在x64的Linux)
爲什麼?
@ bugspy.net - 你能得到生成的代碼的程序集清單,看看是否是這種情況? – 2011-05-08 14:03:25
我試圖不使用常量字符串。現在內核imp正在贏得:0.72秒(對於使用libc的9999999次迭代vs 0.89),使用-02開關 – GabiMe 2011-05-08 14:14:28