2013-04-17 81 views

回答

2

TfidfVectorizer和其他文本vectorizers類scikit學習只是把Python中的Unicode字符串作爲輸入列表。因此,您可以按照所需的方式加載文本,具體取決於來源:使用SQLAlchemy的數據庫查詢,來自HTTP API的json流,CSV文件或文件夾中的隨機文本文件。

對於最後一個選項,如果類信息存儲在文件夾名稱持有的文本文件,你可以使用load_files效用函數。