我必須讀取幾個文件併爲文件中的每個單詞編制索引。 而索引我必須遵循的格式:許多文件的標記和索引
要求==>字,{D1,TF1,D2,TF2,D4,TF4},someOtherValue
說明:
1)word = any word in the files
2)d1,d2,d4... are fileId
3) tf1,tf2,tf4....are the number of times the word appears
in d1,d2,d4 respectievly
我創建一個「Token」類,它包含來自不同文件的字符串作爲「String token」,它所屬文件的名稱爲「String fileId」,其文件中的頻率爲「Int count」。
我可以輕鬆檢查1個文件中的各種單詞並更新其計數。 我用arrayList來做到這一點。 但是,當相同的單詞出現在另一個文件中時,如何在索引時追加fileId和它的計數。
您是否嘗試創建某種文本搜索應用程序。如果是,那麼你可以看看Lucene,它的索引和搜索部分非常簡單。 – Shailendra
@Shailendra我必須這樣做inn客棧java.thats問題。任何建議? – radhapiyari
如果你的意思是Java語言,那麼Lucene是用Java編寫的。如果您必須在您嘗試實現的基礎上開發完整的文本搜索應用程序,那麼您可以嘗試使用Lucene。 – Shailendra