1
我想爲SVM文本分類構建文檔向量。 我已將我的文檔編入2個正面和負面文檔。 我用IG方法選擇了我的特徵空間。由Lucene向一個向量表示一個文檔。
我怎樣才能表示一個文件通過Lucene變成一個帶有tf-idf權重項的向量。
謝謝!
最好的方面!
我想爲SVM文本分類構建文檔向量。 我已將我的文檔編入2個正面和負面文檔。 我用IG方法選擇了我的特徵空間。由Lucene向一個向量表示一個文檔。
我怎樣才能表示一個文件通過Lucene變成一個帶有tf-idf權重項的向量。
謝謝!
最好的方面!
Apache Mahout是Java中的機器學習庫。它有工具create document vectors from lucene index(從原始文本創建)。您可以根據您的要求採用代碼。