1
我想通過加載自己的數據集嘗試把一些算法。我特別感興趣的是加載文本文件(非常類似於20 NewsGroups數據集http://scikit-learn.org/stable/datasets/index.html#general-dataset-api)。是否有任何文檔解釋了加載樣本數據集以外的數據的格式(和過程)?加載自己的文字數據集scikit學習
謝謝。
我想通過加載自己的數據集嘗試把一些算法。我特別感興趣的是加載文本文件(非常類似於20 NewsGroups數據集http://scikit-learn.org/stable/datasets/index.html#general-dataset-api)。是否有任何文檔解釋了加載樣本數據集以外的數據的格式(和過程)?加載自己的文字數據集scikit學習
謝謝。
TfidfVectorizer和其他文本vectorizers類scikit學習只是把Python中的Unicode字符串作爲輸入列表。因此,您可以按照所需的方式加載文本,具體取決於來源:使用SQLAlchemy的數據庫查詢,來自HTTP API的json流,CSV文件或文件夾中的隨機文本文件。
對於最後一個選項,如果類信息存儲在文件夾名稱持有的文本文件,你可以使用load_files效用函數。