我發現了一個來自that網站的rabin karp代碼,並更改爲嘗試。更改的代碼如下。你可以在hashtable.txt中看到單詞和它們的散列值。下面的例子hashtable.txt似乎是正確的。Karp Rabin的素數和塊長度
但是,當我將M(塊長度)更改爲150時,我得到錯誤的結果。例如在hashtable.txt中,第一行和第六行必須相同,但它們的散列值是不同的。
或者當我將q(素數)更改爲683303時,它也會得到錯誤的結果。
rabin karp算法中素數與塊長度之間的關係是什麼?錯誤結果的原因是什麼?
#include<stdio.h>
#include<string.h>
#include <fstream>
#include <iostream>
// d is the number of characters in input alphabet
#define d 256
int M = 80;
/*
txt -> text
q -> A prime number
*/
using namespace std;
void writeTable(char *txt, int q)
{
ofstream myfile;
myfile.open ("hashtable.txt");
int N = strlen(txt);
int i, j;
int t = 0; // hash value for txt
int h = 1;
// The value of h would be "pow(d, M-1)%q"
for (i = 0; i < M-1; i++)
h = (h*d)%q;
// Calculate the hash value of pattern and first window of text
for (i = 0; i < M; i++)
{
t = (d*t + txt[i])%q;
}
// Slide the pattern over text one by one
for (i = 0; i <= N - M; i++)
{
myfile << t <<" ";
for (long z = i; z < M+i; z++){myfile<<txt[z];}myfile<<"\n";
// Calulate hash value for next window of text: Remove leading digit,
// add trailing digit
if (i < N-M)
{
t = (d*(t - txt[i]*h) + txt[i+M])%q;
// We might get negative value of t, converting it to positive
if(t < 0)
t = (t + q);
}
}
myfile.close();
}
/* Driver program to test above function */
int main()
{
char *txt ="abcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcde";
int q = 683303; // A prime number
writeTable(txt, q);
printf("finish");
getchar();
return 0;
}
我試過d = 256 M = 40 q = 139907 so h = 53941.但INT_MAX /(d *(d-1))= 32896。畢竟它的工作是正確的。這個例子中h不小於32896,它應該給我錯誤的結果。那有什麼問題? – Yavuz 2013-04-11 11:49:09
除了這個事實,即使在溢出後,你也可以通過純粹的機會得到正確的結果(儘管如此,不要期望活着),在我的示例文本中,如果我沒有忽略一個字符,並假定ASCII兼容編碼(不知道EBCDIC的代碼數字),最大的出現值是101 - 對於'e' - 因此,實際得到的最大產品是'53941 * 256 * 101 = 1394698496',它小於'2^31-1'。有了這些'q'和'M'值(因此'h'),如果整個輸入是ASCII(即'<128'),就不會溢出。 – 2013-04-11 12:00:03