讓我來舉個例子來解釋一下。 我們有以下文字:文本中的異常
「Comme Il Faut成立於1927年。這家菸草公司以其爲全球合作伙伴生產定製私人標籤品牌而聞名遐邇。
這是正常的文本。但是,下面的文字:
「於1927年CommeIlFautwasfounded生產全球customizedprivatelabelbrands foritspartners的菸草companyi最知名foritsreputation」
這是文本異常:錯別字,詞沒有空格,也許別的東西。
如何搜索這樣的異常?
這個(統計)有什麼算法?
希望結果是一個百分比:例如,80%的異常。
謝謝。
謝謝。我會看到Trie。 – user348173 2011-04-15 13:23:46
還有一點需要注意:有一種方法可以結合試驗和編輯距離。用一個正常的Trie,你可以搜索一個完美的匹配,即你不會輕易地找到拼寫錯誤的單詞。有一種算法可以很容易地匹配一個不匹配的樹上的序列。如果您需要,我可以在家爲您找到紙張。或者你可以看看[這個代碼](https://forge.ocamlcore.org/snippet/detail.php?type=snippet&id=9)(用一種函數式語言編寫)。 – LiKao 2011-04-18 07:49:18