0
我想分析一個龐大的文檔(3.5GB,300K行,300K文檔),每行一個文檔的大文檔集。在這個過程中,我使用Lucene進行索引和Lingpipe進行預處理。術語文檔使用Lucene/Lingpipe在一個大型語料庫中的Java語言的頻率
問題是我想擺脫文件中非常罕見的單詞。例如,如果一個單詞在文集(大文件)中出現少於MinDF時間,我想將其刪除。
我可以嘗試使用Lucene來做到這一點:計算所有不同術語的文檔頻率,按升序對它們進行排序,得到DF低於MinDF的術語,再次查看大文件,並刪除這些術語行每行。
這個過程會非常緩慢。有誰知道使用Java執行此操作的更快方法嗎?
Regards
非常感謝!非常有幫助的答案,我會報告回來! – jimkots 2012-04-29 13:47:22