0
我正在通過將推文存儲到memsql中的表中來處理Twitter提要。該表具有像tweet_id,posting_time,正文等字段...用於詞雲的MemSQL表設計
該表包含每天約500萬tweets。迄今爲止存儲的總共10億條推文
該表存儲爲一個列存儲,tweet_id作爲分片鍵,而且posting_time存儲爲列存儲聚簇列。
到目前爲止,它對所有實時分析工作正常,如果您查詢某一天,它會在亞秒內返回答案。日期過濾器越寬,查詢越慢
需求是從推文的正文字段生成一個詞雲。我的問題是;什麼是最好的辦法呢?我需要的查詢是高效(只需幾秒鐘而不是幾分鐘) 記住以下
- 連接效率不高這一大桌。
- 以身體領域爲數百萬條推文並將其分解爲 轉化爲單詞,然後聚合單詞並提出頂級單詞並不高效。
我相信需要一個單獨的表格,這張表格的設計可能是什麼?建議請
最後,我MemSQL羣集有5個節點,共1個TB的RAM,以及192個核