1
我有兩個不同的文件夾,一個是正面類,另一個是負面類。每個文件夾都包含一組文檔。有沒有可以將此訓練數據集轉換爲LibSVM格式的實用程序?將文檔集合轉換爲LibSVM格式的實用程序
我有兩個不同的文件夾,一個是正面類,另一個是負面類。每個文件夾都包含一組文檔。有沒有可以將此訓練數據集轉換爲LibSVM格式的實用程序?將文檔集合轉換爲LibSVM格式的實用程序
您可以使用scikit-learn編寫一個python腳本來執行此操作。您可以使用以下工具:
load_files加載文本文檔,
TfIdfVectorizer提取文本的功能,如存儲矩陣scipy.sparse
,
dump_svmlight,以節省所產生的稀疏矩陣使用svmlight格式的磁盤。