2014-03-19 150 views
0

我試圖匹配字符串中的單詞,但是我不想匹配另一個單詞的一部分的單詞......糟糕的解釋!如果有詞pen。我想匹配字符串中的該字:在單詞中匹配單詞Python

01pennsylvania'不應該匹配爲pen是字pennsylvania的一部分。

但是,pensforsale應該匹配爲pen不是另一個詞的組成部分。我一直在研究NLTK,但我找不到我要找的東西,任何人都可以將我指向正確的方向?我知道不可能爲所有字組合做到這一點,但是稍微減少噪音會有很大的幫助。

在此先感謝!

+0

你在哪個平臺上運行? – wnnmaw

+0

你說的操作系統是對的? linux –

+0

因此,您需要將空格不足的文本解析爲單詞*和*,然後找出哪個*意思是「筆」而不是僅包含它? 「鉛筆」計數?如果一個動物被「注入」了,怎麼樣? – jonrsharpe

回答

1

您可能會發現這個How to split text without spaces into list of words?有幫助的開始;通過首先嚐試將「pensforsale」分成單詞列表,然後可以檢查可能的變體,如複數等。

這將是一個非常緩慢且容易出錯的方法,儘管。