2016-12-04 70 views
1

使用NLTK工作,我正在爲一個項目進行原型設計。我來自PHP,所以Python對我來說有點陌生。如何在Python中的字符串的開頭或結尾刪除停用詞?

我有1和4

之間

我要清理由 該字符串微調任何禁用詞的兩端禁用詞的 列表和正字串,n爲。如果我在刪除一個停用詞之後需要重新測試該字符串,因爲可能在其後面有另一個。

你會如何在Python中進行性能優化?

+0

怎麼樣:http://stackoverflow.com/questions/5486337/how-to-remove- stop-words-using-nltk-or-python – jmunsch

回答

1

將字符串標記爲單詞。

使用快速設置的成員資格操作員可以在匹配停用詞列表時消除前導/尾隨令牌。

如果下一步真正需要的字符串,然後拼接的單詞列表返回到一個與慣用' '.join(your_list)

+1

設置成員資格是這裏的線索。 'set .__ contains __()'是一個常量時間操作,而'list .__包含__()',它是線性時間。此外,如果您的標記位於「列表」中,則從列表前面刪除元素是一種線性時間操作,因此您可以通過優化如何去除前導停用詞來獲得更好的性能。 –

相關問題