我正在處理非常短的詞串,其中一些是愚蠢的。假設,我可以有一串「你是一個」,如果我刪除了停用詞,該字符串將是空白的。由於我在循環中進行分類,因此如果出現空白字符串,它會停止並顯示錯誤。我創建了下面的代碼來解決這個問題:Python NLTK - 防止停用詞去除每個詞
def title_features(words):
filter_words = [word for word in words.split() if word not in stopwords.words('english')]
features={}
if len(filter_words) >= 1:
features['First word'] = ''.join(filter_words[0])
else:
features['First word'] = ''.join(words.split()[0])
return features
這可以確保我沒有錯誤,但我不知道是否有更有效的方式來做到這一點。或者一種方式去做它不會擺脫所有單詞的地方,如果它們都是停用詞。
這聽起來像停止詞刪除不是你的語料庫的好主意...... –
不是所有的人都是這樣的。 我不確定這是不是一個好主意,但我要測試一下。 –