我想根據不適合內存的語料庫構建tf-idf模型。我讀的教程,但胼似乎一下子被加載:TfidfVectorizer適用於不適合內存的語料庫
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["doc1", "doc2", "doc3"]
vectorizer = TfidfVectorizer(min_df=1)
vectorizer.fit(corpus)
我不知道如果我可以通過一個文件加載到內存中的一個而不是加載所有的人。
當處理大型語料庫時,使用最近的開發版本而不是穩定版本可能是一個好主意,因爲對TfidfVectorizer進行了大修以減少內存使用量並提高了速度。 – 2013-05-09 20:20:49