正在關注1和2: 不同類型的文件會隨時進入我的NFS目錄。我想使用OOZIE或任何其他HDFS解決方案來觸發文件到達事件,並根據文件的類型將文件複製到HDFS中的特定位置。什麼是最好的方式來做到這一點?使用OOZIE在文件到達NFS時觸發執行的最佳方式
回答
最好的方法是非常主觀的術語。它很大程度上取決於數據到達特定位置後應該發生什麼類型的數據,頻率和發生什麼樣的事情。
Apache水槽可以監視特定文件夾的數據可用性,並將其壓入像HDFS 這樣的水槽,原樣爲。 Flume適合流式傳輸數據,但它只做一項特定工作 - 只是將數據從一個地方移動到另一個地方。
但另一方面,請查找Oozie協調員。協調員具有數據可用性觸發器,使用oozie可以在數據到達後使用spark,hive,pig等工具執行各種ETL操作,並使用shell操作將其推送到hdfs。你可以安排工作在特定的時間運行,頻率或工作給你發送電子郵件,如果出現問題...
非常感謝@Pushkr!你能指導我在哪裏可以找到Oozie協調員代碼的源代碼來觸發文件到達並將文件複製到HDFS的特定位置? – Avi
谷歌是你的朋友伴侶。但這裏有一些樣本 - https://github.com/yahoo/oozie/wiki/Oozie-Coord-Use-Cases – Pushkr
親愛的@Pushkr,Oozie協調員支持是否也支持NFS到達文件,而不僅僅是HDFS?請參考:https://community.cloudera.com/t5/Batch-Processing-and-Workflow/Getting-Oozie-Coordinator-datasets-working-with-S3-after-a-lost/td-p/27233 – Avi
- 1. 使用觸發器有條件地插入的最佳方式
- 2. 最佳方式暫時直到文件
- 3. 觸發適時事件的最佳方式
- 4. model.fetch完成時觸發事件的最佳方式
- 5. 在活動開始前一小時觸發的最佳方式
- 6. 執行搜索的最佳方式
- 7. 執行此操作的最佳方式
- 8. 執行數學表達式的最佳方法是什麼?
- 9. 處理線程最大執行時間的最佳方式(Java)
- 10. Cocoa觸摸切換視圖時觸發方法的最佳方式
- 11. 使用Oozie for Hadoop的最佳實踐
- 12. 調用可執行文件並在Python中獲取輸出的最佳方式
- 13. 最佳方式文件
- 14. 執行異常事件的最佳方式(模式)
- 15. 觸發調整構建jQuery插件的最佳方式?
- 16. 綁定/觸發事件的最佳方式
- 17. 使用HttpClient在效率方面發佈文件的最佳方式
- 18. 使用Intel SSE執行分支的最佳方式是什麼?
- 19. 通過PHP將xml文件發送到URL的最佳方式
- 20. 使用Oozie執行Sqoops
- 21. 如果達到一定的時間,執行函數,Python的最佳方法
- 22. 使用文本的最佳方式
- 23. 跟蹤文本文件中最後一行的最佳方式
- 24. 使用大文件在Jenkins上執行測試的最佳方法
- 25. 在創建時將JSON發送到頁面的最佳方式
- 26. 在backbonejs中觸發路由的最佳方式是什麼?
- 27. 別名表達式的最佳方式
- 28. 在GridView行上執行操作的最佳方式
- 29. 在Rails 3.x中執行ajax文件上傳的最佳方式是什麼
- 30. 使用vim進行Cocoa開發的最佳方式是什麼?
Apache Flume ... ........ ?? ?? – franklinsijo