我正在處理涉及監視大量rss/atom feed的項目。我想使用hbase進行數據存儲,並且在設計模式時遇到一些問題。對於第一次迭代,我希望能夠生成彙總的Feed(從反向時間順序的所有Feed中的最後100個帖子)。使用hbase的Feed聚合器。如何設計架構?
目前我使用兩個表:
Feeds: column families Content and Meta : raw feed stored in Content:raw
Urls: column families Content and Meta : raw post version store in Content:raw and the rest of the data found in RSS stored in Meta
我需要某種形式的索引表的彙總飼料。我應該如何構建? hbase是這種應用程序的不錯選擇嗎?
問題更新:是否有可能(以hbase爲基礎)設計一個可以高效回答下面列出的查詢的模式? HBase的用戶郵件列表上
SELECT data FROM Urls ORDER BY date DESC LIMIT 100