2010-05-27 28 views
1

我必須從一些文本文件創建數據集,將它們編寫爲要素向量。創建一個數據集:從文本文檔中提取特徵(TF-IDF)

像這樣:

doc1: 1,0.45 6,0.001 94,0.1 ... 

doc2: 3,0.5 98,0.2 ... 

... 

向量的每個位置代表一個詞,分數由類似TF-IDF給出。

你知道一些圖書館/工具/這是什麼嗎? (java更好)

回答

0

mallet。包括TF-IDF,POS,分類。

0

肯定有很多如http://en.wikipedia.org/wiki/Lucene

然而

我建議你從頭開始編寫一個基本的IR系統。在引擎蓋下展望永遠是一次很好的學習體驗。

+0

我知道,但我的時間是有限的,TFIDF看起來很容易實現 – BigG 2010-05-27 15:09:39

+0

我不是那個意思只是TFIDF算法,我的意思是端到端的,從文件的解析,索引到搜索/排名等。 – Darknight 2010-05-27 15:21:09