NiFi或Streamsets從HBase讀取，加入平面文件中的內容並寫入Hive

試圖找出是否可以通過apache NiFi或Streamsets實現連接。所以我可以定期從HBase中讀取數據，並與其他表格一起寫入Hive表格。NiFi或Streamsets從HBase讀取，加入平面文件中的內容並寫入Hive

或者是否有任何其他工作流管理器工具支持此操作？

2017-05-03 Srihari Karanth

我並不熟悉Streamsets，但我會盡力幫助NiFi。你的平面文件是靜態的嗎？如果是這樣，你是否想直接替換值？你應該可以使用ReplaceTextWithMapping處理器。如果不是直接替換，則可以使用平面文件中的值預填充DistributedMapCache，然後使用FetchDistributedMapCache對HBase記錄進行查找。

如果一切都失敗了，那麼如果您對諸如Groovy，Javascript或Jython等腳本語言感到滿意，可以使用ExecuteScript或InvokeScriptedProcessor編寫「連接」部分。

在支持CSV文件，屬性文件和內存查找的查找/增強處理器上有一個open Jira case（取得了一些很好的進展）。

來源

2017-05-03 15:13:07 mattyb

謝謝，FetchDistributedMapCache似乎是我正在尋找的。它也可以定期做。例如，我有一個表，不斷填充新行，我想每隔一小時爲前一小時數據（與其他靜態表上的連接）彙總一次。那麼NiFi會記得哪些時間已經彙總，哪些需要在剩餘時間內選擇？聚合將在少數列上具有SUM/AVG。 –

它不會進行聚合，緩存僅用於查找。在即將發佈的NiFi 1.2.0版本中，您可以使用UpdateAttribute在文件流經時保持運行計數/總和 – mattyb

NiFi或Streamsets從HBase讀取，加入平面文件中的內容並寫入Hive

回答

相關問題