我需要一個包含有關文件信息的表和一個標識此文件中內容的值。文件類型主要是pdf,我有邏輯從文件中提取內容。生成一個標識字符串的值並查找重複/幾乎重複的值
現在我創建一個內容的哈希值並將其放置在表中。有了這個值,我能夠找到重複的文件。但是,客戶也希望識別幾乎相同的文件。例如,如果版權信息發生變化 - 或者其他一些小變化。這將會有一個人工檢查結果,所以我不需要100%的命中率。
我想到的第一件事就是製作一張包含50個最熱門詞彙的表格,並將它們與一個ID相關聯。比我可以使用這個,並在每個文件中做一個字數。結果將是一個像這樣的字符串(其中單詞1被擊中20次,單詞2 12次)「1:20-2:12 ......」
任何人都有更好的建議如何使一個可以識別幾乎相同的文件/字符串的值?
就我所見,Levenshtein距離只能比較兩個值?我必須爲大約70 000個文件生成一個值,然後比較這些值。 – Svendberg 2010-03-09 09:36:37
'value'可以是文件的內容。因此,爲了比較兩個文件是否相同或「close」,您可以計算它們各自字符串內容之間的Levenshtein距離。越接近0,這些文件就越相同。 – 2010-03-09 09:39:36
這絕對是一個解決方案,但缺點是我必須將所有文檔內容存儲在數據庫中。我希望我可以使用一個像散列或其他東西一樣短的值。但是,謝謝你的提示! :) – Svendberg 2010-03-09 09:56:06