2011-08-21 63 views
1

我知道Twissandra這是一個使用Cassandra的twitter克隆的示例,但我有興趣查看是否有人共享Cassandra架構不是爲了克隆Twitter,而是用於存儲通過Twitter發送的推文流媒體API?Apache Streaming API的Apache Cassandra數據架構

+0

你對此有何更新嗎?你有沒有對你有用的計劃? – felipeclopes

+0

我放棄卡桑德拉和HBase的使用,而不是用自定義模式 –

回答

6

這很大程度上取決於您在攝入數據後想要對數據進行什麼樣的查詢 - 我從您之前的問題「轉儲Twitter流式API推文...」中看到,您可能只是想要進行大批量處理在上面。

如果是這種情況,您只需要擔心負載平衡,確保集羣中的每個節點處理寫入負載的1/n,並且包含1/n數據 - 使用隨機分區並插入每鳴叫一行與狀態ID爲行鍵將實現這一目標。

但是,如果你想要做像「給我一個給定用戶的所有微博」的查詢,您將需要一個稍微複雜的模式,如上文所建議的架構將要求您掃描所有的數據。你可以每行插入多鳴叫,行鍵爲用戶ID,列鍵爲鳴叫ID和作爲鳴叫價值。然後,您可以使用get_slice來回答該查詢。

好(有點關係)的博客文章:http://blog.insidesystems.net/basic-time-series-with-cassandra