目標:我需要能夠將撇號轉換爲正確形成的單詞。 - 至少對於帶撇號的最常見單詞。理想情況下,我想要一個單詞列表及其隱含的關鍵詞(即「不」和「不」)。撇號轉換爲正確的文本?
問題:我創建一個搜索算法基於自然語言處理,但是當用戶創建使用單引號的內容(或搜索),它會導致問題我們。這主要是因爲,如果我們簡單地刪除撇號,我們將有(不 - >不要)(不 - >犯規),從而正式並不是一個英文單詞,而不能由NLP系統進行翻譯。
理想的解決方法是什麼,這些項目應轉換成一對一的映射,但是我不知道這樣的列表中。
請讓我知道,如果你知道一個,並在那裏我也許能找到它。
THX
出於好奇,爲什麼不加上收縮到您的NLP系統的字典? – 2011-01-12 22:43:02