2009-12-02 25 views
0

我應該用Java編寫一個web爬蟲。爬行部分很容易,但索引部分很困難。我需要能夠查詢索引器並讓它返回匹配(多個字查詢)。做這樣的事情最好的數據結構是什麼?在Java中創建Web索引器?

回答

0

如果你是從頭開始創建的,你應該看看inverted index的數據結構。如果您可以使用現成的貨架,請查看Nutch項目。

1

該溶液到索引&搜索步驟是使用一個inverted index數據結構,並且實現此用於索引的最佳可用開源包&搜索是Lucence

還有一些開源項目爲搜索,索引&提供了一個可能感興趣的搜索步驟的綜合解決方案。 nutch

這個關於信息檢索的free online book可能對你有所幫助(見章節constructing an inverted index)。