我正在寫一個自定義的爬網程序,並且需要知道一個特定的URL是否被抓取,所以我不會添加兩次相同的URL。現在我正在使用mysql來存儲每個url的哈希值。但是我想知道如果我有大量的網站,例如數億人,這可能會變得非常緩慢。最好的方式來存儲一大堆履帶的網址
有沒有其他的方式來存儲網址?人們使用lucene來做到這一點嗎?還是有具體的數據結構來做到這一點?
我正在寫一個自定義的爬網程序,並且需要知道一個特定的URL是否被抓取,所以我不會添加兩次相同的URL。現在我正在使用mysql來存儲每個url的哈希值。但是我想知道如果我有大量的網站,例如數億人,這可能會變得非常緩慢。最好的方式來存儲一大堆履帶的網址
有沒有其他的方式來存儲網址?人們使用lucene來做到這一點嗎?還是有具體的數據結構來做到這一點?
您還沒有指定您的開發平臺,但有一個叫特里真的好數據結構(http://en.wikipedia.org/wiki/Trie) 有很多關於java實現的,C++,C#...
你可能想嘗試的BerkeleyDB
爲時已晚! 但您可以使用ram db system爲例memcached
我使用java做爲檢索器。 – user402057 2010-07-26 09:20:06
http://stackoverflow.com/questions/623892/where-do-i-find-a-standard-trie-based-map-implementation-in-java描述你可以在哪裏獲得實現 – Dewfy 2010-07-26 10:00:53