2010-07-26 85 views
2

我正在寫一個自定義的爬網程序,並且需要知道一個特定的URL是否被抓取,所以我不會添加兩次相同的URL。現在我正在使用mysql來存儲每個url的哈希值。但是我想知道如果我有大量的網站,例如數億人,這可能會變得非常緩慢。最好的方式來存儲一大堆履帶的網址

有沒有其他的方式來存儲網址?人們使用lucene來做到這一點嗎?還是有具體的數據結構來做到這一點?

回答

2

您還沒有指定您的開發平臺,但有一個叫特里真的好數據結構(http://en.wikipedia.org/wiki/Trie) 有很多關於java實現的,C++,C#...

+0

我使用java做爲檢索器。 – user402057 2010-07-26 09:20:06

+0

http://stackoverflow.com/questions/623892/where-do-i-find-a-standard-trie-based-map-implementation-in-java描述你可以在哪裏獲得實現 – Dewfy 2010-07-26 10:00:53

0

你可能想嘗試的BerkeleyDB