Apache Streaming API的Apache Cassandra數據架構

我知道Twissandra這是一個使用Cassandra的twitter克隆的示例，但我有興趣查看是否有人共享Cassandra架構不是爲了克隆Twitter，而是用於存儲通過Twitter發送的推文流媒體API？Apache Streaming API的Apache Cassandra數據架構

你對此有何更新嗎？你有沒有對你有用的計劃？ – felipeclopes

我放棄卡桑德拉和HBase的使用，而不是用自定義模式 –

這很大程度上取決於您在攝入數據後想要對數據進行什麼樣的查詢 - 我從您之前的問題「轉儲Twitter流式API推文...」中看到，您可能只是想要進行大批量處理在上面。

如果是這種情況，您只需要擔心負載平衡，確保集羣中的每個節點處理寫入負載的1/n，並且包含1/n數據 - 使用隨機分區並插入每鳴叫一行與狀態ID爲行鍵將實現這一目標。

但是，如果你想要做像「給我一個給定用戶的所有微博」的查詢，您將需要一個稍微複雜的模式，如上文所建議的架構將要求您掃描所有的數據。你可以每行插入多鳴叫，行鍵爲用戶ID，列鍵爲鳴叫ID和作爲鳴叫價值。然後，您可以使用get_slice來回答該查詢。

2011-08-21 10:55:10

回答