1
我打算在C++中編寫一個爬網程序,每天爬行N個頁面。主要問題是我對存儲系統感到困惑。所以我需要一個分佈式數據庫來存儲我的爬行數據。任何人都可以建議我符合條件的數據庫?針對爬蟲存儲系統所需的建議
我打算在C++中編寫一個爬網程序,每天爬行N個頁面。主要問題是我對存儲系統感到困惑。所以我需要一個分佈式數據庫來存儲我的爬行數據。任何人都可以建議我符合條件的數據庫?針對爬蟲存儲系統所需的建議
MongoDB可能是一個很好的選擇,因爲它以直接和高效的方式支持幾乎所有的需求(包括一個很好的查詢API)。分發是通過「分片」完成的。
不要求比較數據庫(通常討論包括stackoverflow)。
除非N很大,或者您計劃存儲很多版本,否則您可能不需要分佈式數據庫。嘗試從MySQL開始