1
我試圖刪除一次出現在我的詞彙表中的單詞,以減少我的詞彙量。我正在使用sklearn TfidfVectorizer(),然後在我的數據框上使用fit_transform函數。在詞彙表中刪除一次出現的單詞TF-IDF
tfidf = TfidfVectorizer()
tfs = tfidf.fit_transform(df['original_post'].values.astype('U'))
我首先想到的是在TFIDF矢量化或機器學習之前,使用預處理包預處理器領域。
任何提示或進一步實施的鏈接?