0
Im與NLTK Stanford Pos Tagger一起使用我自己的模型在文本文件中標記句子行。我惡搞的輸出是這樣的:處理NLTK Stanford POS Tagger輸出
sentences = [((Word,WordTag),....(Word,WordTag)]
進出口加工印尼語,Im做2步做詞性標註後:
- 停止詞刪除
- 詞幹
我已經在文本文件(stopword.txt
)中得到了一個停用詞的列表,並將該句阻止。 到目前爲止,我已經完成了標籤部分。我沒有任何想法如何過濾詞sentences
如果他們刪除stopword.txt
字和幹sentences
到目前爲止的話,我已經試過這個代碼字去掉,但仍不能消除的話和其字標籤:
stopWords = getStopWordList('id_stopword.txt')
filtered_sentences = [w for w in sentences if not w in stopWords]
filtered_sentences = []
for w in sentences:
if w not in stopWords:
filtered_sentences.append(w)
是的,getStopWordList()返回一個字符串列表。謝謝。現在剩下的問題是詞幹。我可以使用下面的代碼來阻止filtered_sentences嗎? – Fregy
發佈關於詞幹的單獨問題。你的代碼沒有納入你的評論。可能太長了。 – BoarGules