添加/刪除帶有空格的停用詞的最佳方式是什麼?我正在使用token.is_stop
函數,並希望對該集進行一些客戶更改。我正在查看文檔,但找不到關於停用詞的任何內容。謝謝!添加/刪除帶空格的停用詞
回答
你可以處理你的文字是這樣的(見this post)前編輯:
>>> import spacy
>>> nlp = spacy.load("en")
>>> nlp.vocab["the"].is_stop = False
>>> nlp.vocab["definitelynotastopword"].is_stop = True
>>> sentence = nlp("the word is definitelynotastopword")
>>> sentence[0].is_stop
False
>>> sentence[3].is_stop
True
注:這似乎是工作< = V1.8。對於較新的版本,請參閱其他答案。
對於2.0版本,我用這個:
from spacy.lang.en.stop_words import STOP_WORDS
print(STOP_WORDS) # <- set of Spacy's default stop words
STOP_WORDS.add("your_additional_stop_word_here")
for word in STOP_WORDS:
lexeme = nlp.vocab[word]
lexeme.is_stop = True
此加載所有停用詞成一組。
您可以將您的停用詞修改爲STOP_WORDS
或首先使用您自己的列表。
在2.0版本中做了這個,並且得到了「ImportError:沒有名爲en.stop_words的模塊」......建議? – user1025852
@ user1025852如果有更新我的答案。 – petezurich
'spacy.lang.en.stop_words'也給出錯誤。 – jxn
- 1. 刪除帶空格的單詞
- 2. 刪除停用詞
- 3. 如何從文本文件中刪除停用詞而不刪除空格
- 4. matplotlib TEX標籤添加/刪除空格
- 5. Linux刪除帶空格的文件
- 6. 如何在字符串後添加空格並刪除空格?
- 7. R tm removeWords停用詞不會刪除停用詞
- 8. 如何刪除java中的停用詞?
- 9. 刪除NLTK中的停用詞
- 10. 刪除句子中的停用詞
- 11. 刪除字符串中的停用詞
- 12. PDFBox在單詞內添加空格
- 13. 當單詞太長時添加空格
- 14. 刪除空格
- 15. 刪除空格
- 16. 刪除空格
- 17. 刪除空格
- 18. 如何使用javascript或jquery刪除/刪除第一個空格的單詞?
- 19. 如何使用RegexKitLite刪除任何兩個單詞之間的空格/空格?
- 20. 從數據框中刪除停用詞
- 21. 從文件中刪除停用詞
- 22. 在java中刪除停用詞
- 23. 從推文中刪除停用詞Python
- 24. 刪除停用詞從文本文件
- 25. NLTK從CSV中刪除停用詞
- 26. NLTK停用詞刪除問題
- 27. 帶空白除空格
- 28. 如何使用jQuery刪除大寫單詞之間的空格?
- 29. Solr詞綴,以及帶或不帶空格的詞
- 30. tm_map刪除包含我的停用詞的詞嗎?
完整列表:'from spacy.en.word_sets import STOP_WORDS' – Xeoncross