1
我正在實現Lambda體系結構,分別針對批處理層和速度層使用spark和spark流。到目前爲止,我在HBase中存儲了批處理視圖和實時視圖,但在不同的表中。如何在Lambda架構中實現合併操作?
我被困在如何合併由批處理視圖生成的批處理視圖和由速度層生成的實時視圖,以便進行查詢。如何做到這一點?我應該將它們轉儲到同一個HBase表中,客戶端直接查詢HBase嗎?
我正在實現Lambda體系結構,分別針對批處理層和速度層使用spark和spark流。到目前爲止,我在HBase中存儲了批處理視圖和實時視圖,但在不同的表中。如何在Lambda架構中實現合併操作?
我被困在如何合併由批處理視圖生成的批處理視圖和由速度層生成的實時視圖,以便進行查詢。如何做到這一點?我應該將它們轉儲到同一個HBase表中,客戶端直接查詢HBase嗎?
首先,我認爲HBase不是實時視圖的最佳選擇,因爲重載隨機讀取/隨機寫入不是HBase最強大的一面。
無論如何,一個辦法可以是以下幾點:在星火
DataFrame
/DataSet
例如DataFrame
/DataSet
太這樣做是非常簡化流程可以在我的github上可以找到