1
我想建立一個系統,收集社交網絡數據,每小時收集特定份額/帖子(可能會有成千上萬)的樣本。 一旦我進行爬網,我想將它保存在一個大數據分析中,我可以稍後分析。建議用於收集社交網絡分析的BigData數據庫
分析過程可能是Spark或甚至是應用程序代碼分析。 這意味着我正在尋找最適合我的數據庫: 1.查詢。 2. Spark和其他常用的數據處理可以在其上使用。
你會建議哪一個? HBase的? MongoDB的? Couchbase? BigTable的? DynamoDB?
謝謝!
看起來你想要以「批量」的方式將每小時社交網絡數據存儲到這個nosql數據庫中,並使用db來主要驅動分析。如果這是用例,那麼我肯定會看看Apache Phoenix/HBase。在HBase中,您可以非常有效地以批處理方式導入數據。在HBase的頂部使用Phoenix,您可以獲得像界面一樣的SQL。你還會用這個數據庫做隨機讀取嗎(單行讀取而不是順序讀取)?卡桑德拉是另一種選擇。 Cassandra和Couchbase在功能上相似。其他因素包括Cloud/On Premise。 – satish