我最近開始試驗Hbase和hadoop堆棧。我正試圖從頭構建一個應用程序。我正在爲我的應用程序設計我的模式,它將使用谷歌正常語法數據集。Hbase架構設計 - 建議需要
我意識到可以將數據集製作成具有ngram作爲行鍵和具有許多限定符(年份,頁數,match_count)的一個列族的模型,或者該模型可以具有n-gram作爲行鍵以及Year,page_count,match_count有多個列族。
我意識到模型取決於我想使用這些數據的方式,但我想了解這兩種方法的優缺點。
乾杯, Dwarak