2017-02-12 63 views
0

我正在通過將推文存儲到memsql中的表中來處理Twitter提要。該表具有像tweet_id,posting_time,正文等字段...用於詞雲的MemSQL表設計

該表包含每天約500萬tweets。迄今爲止存儲的總共10億條推文

該表存儲爲一個列存儲,tweet_id作爲分片鍵,而且posting_time存儲爲列存儲聚簇列。

到目前爲止,它對所有實時分析工作正常,如果您查詢某一天,它會在亞秒內返回答案。日期過濾器越寬,查詢越慢

需求是從推文的正文字段生成一個詞雲。我的問題是;什麼是最好的辦法呢?我需要的查詢是高效(只需幾秒鐘而不是幾分鐘) 記住以下

  • 連接效率不高這一大桌。
  • 以身體領域爲數百萬條推文並將其分解爲 轉化爲單詞,然後聚合單詞並提出頂級單詞並不高效。

我相信需要一個單獨的表格,這張表格的設計可能是什麼?建議請

最後,我MemSQL羣集有5個節點,共1個TB的RAM,以及192個核

回答

0

我不認爲MemSQL是做到這一點的最好辦法。你最好的選擇是用像Apache Solr這樣的搜索服務器/庫來索引它,或者使用Apache Lucene作爲你的後端。這樣,詞雲所需的查詢就會在幾秒鐘內返回,例如「給我排名最高的n個詞的所有計數」。