0
我在機器學習之前做了一些文本預處理。我有兩個特點(熊貓系列) - abstract
和title
- 並使用以下功能對數據進行預處理(給人一種numpy的陣列,其中每行包含一個訓練樣本的特徵):TF-IDF NLTK預處理後的權重
def preprocessText(data):
stemmer = nltk.stem.porter.PorterStemmer()
preprocessed = []
for each in data:
tokens = nltk.word_tokenize(each.lower().translate(xlate))
filtered = [word for word in tokens if word not in stopwords]
preprocessed.append([stemmer.stem(item) for item in filtered])
print(Counter(sum([list(x) for x in preprocessed], [])))
return np.array(preprocessed)
我現在需要使用TF-IDF來加權特徵 - 我該怎麼做?