-2
我必須從包含50K推文的文本文件中刪除停用詞。當我運行此代碼時,它會成功刪除停用詞,但同時它也會刪除空格。我想在文本中使用空格。如何從文本文件中刪除停用詞而不刪除空格
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import codecs
import nltk
stopset = set(stopwords.words('english'))
writeFile = codecs.open("outputfile", "w", encoding='utf-8')
with codecs.open("inputfile", "r", encoding='utf-8') as f:
line = f.read()
tokens = nltk.word_tokenize(line)
tokens = [w for w in tokens if not w in stopset]
for token in tokens:
writeFile.write(token)
那麼你將結束一條很長的路線,但對你更有力量。 – tripleee 2015-02-11 04:44:57
在單詞之間放置空格。 – tripleee 2015-02-11 04:51:04
它不可行,因爲這個文件有超過50000行 – ALphaCS 2015-02-11 04:52:16