2011-03-20 70 views
1

我打算在C++中編寫一個爬網程序,每天爬行N個頁面。主要問題是我對存儲系統感到困惑。所以我需要一個分佈式數據庫來存儲我的爬行數據。任何人都可以建議我符合條件的數據庫?針對爬蟲存儲系統所需的建議

回答

0

MongoDB可能是一個很好的選擇,因爲它以直接和高效的方式支持幾乎所有的需求(包括一個很好的查詢API)。分發是通過「分片」完成的。

不要求比較數據庫(通常討論包括stackoverflow)。

-1

除非N很大,或者您計劃存儲很多版本,否則您可能不需要分佈式數據庫。嘗試從MySQL開始