我必須從一些文本文件創建數據集,將它們編寫爲要素向量。創建一個數據集:從文本文檔中提取特徵(TF-IDF)
像這樣:
doc1: 1,0.45 6,0.001 94,0.1 ...
doc2: 3,0.5 98,0.2 ...
...
向量的每個位置代表一個詞,分數由類似TF-IDF給出。
你知道一些圖書館/工具/這是什麼嗎? (java更好)
我必須從一些文本文件創建數據集,將它們編寫爲要素向量。創建一個數據集:從文本文檔中提取特徵(TF-IDF)
像這樣:
doc1: 1,0.45 6,0.001 94,0.1 ...
doc2: 3,0.5 98,0.2 ...
...
向量的每個位置代表一個詞,分數由類似TF-IDF給出。
你知道一些圖書館/工具/這是什麼嗎? (java更好)
我知道,但我的時間是有限的,TFIDF看起來很容易實現 – BigG 2010-05-27 15:09:39
我不是那個意思只是TFIDF算法,我的意思是端到端的,從文件的解析,索引到搜索/排名等。 – Darknight 2010-05-27 15:21:09