2012-04-23 69 views
1

我有使用哈希函數的問題。我必須爲文檔中的每個單詞指定一些編號(128位或64位)。所以,「相似性」的散列值必須與「相似」相近。這意味着,如果具有相似值=> 10022(說),則相似=> 10025。這應該接近類似的詞。不同名稱的散列值也應該相似。這意味着,「john」的哈希值也應該與「michel」或「sita」等近似。如果任何機構有任何想法。相似哈希函數(simhash)

謝謝先進。 :)

回答

3

它不是以這種方式工作,首先必須找到可用數據樣本值的一般模型,然後將其用於流日誌消息。

+1

請讓我更清楚一點。 – 2012-05-28 15:32:27

+0

你需要解釋哪部分? – 2012-06-04 03:05:31

+1

可用數據樣本值的模型呢? – 2012-06-04 05:24:51

0

有一個名爲OpenNLP的庫,所以通過使用這個庫你可以知道它是什麼類型的單詞。那麼正如你所說,對於像名稱這樣的相似單詞,可以使用寫入散列函數,其中名稱或動詞可以得到相似的散列值。 謝謝。

+1

開放式圖書館適用於普通英語,但事件日誌不符合一般英語模式。我不能在日誌消息中使用它。如果你有什麼想法? – 2012-05-17 19:17:47