創建一個數據集：從文本文檔中提取特徵（TF-IDF）

我必須從一些文本文件創建數據集，將它們編寫爲要素向量。創建一個數據集：從文本文檔中提取特徵（TF-IDF）

像這樣：

doc1: 1,0.45 6,0.001 94,0.1 ... 

doc2: 3,0.5 98,0.2 ... 

...

向量的每個位置代表一個詞，分數由類似TF-IDF給出。

你知道一些圖書館/工具/這是什麼嗎？（java更好）

2010-05-27 BigG

mallet。包括TF-IDF，POS，分類。

2010-05-27 13:31:56

然而

我建議你從頭開始編寫一個基本的IR系統。在引擎蓋下展望永遠是一次很好的學習體驗。

2010-05-27 13:34:01 Darknight

我知道，但我的時間是有限的，TFIDF看起來很容易實現 – BigG 2010-05-27 15:09:39

我不是那個意思只是TFIDF算法，我的意思是端到端的，從文件的解析，索引到搜索/排名等。 – Darknight 2010-05-27 15:21:09

幾天後，我發現這個「完美的工具」：Word矢量工具。 http://sourceforge.net/projects/wvtool/

2010-06-14 07:27:11 BigG

回答