我遇到以下問題。我有200k xml文件。我有200個文件夾,每個文件夾有2000個xml文件。我在HDFS中有這個。體系結構低於如何處理HADOOP中的多個文件夾
RootFolder
Folder001
1.xml
2.xml
2000.xml
Folder002
2001.xml
我需要編寫一個映射程序來讀取文件並執行一些Xpath過程。
如果我給了RootFolder輸入路徑則映射器應閱讀的文件夾和處理XML文件
也就是說應該有200任務。並且每個文件夾應該由單個映射器讀取
如何處理多個文件夾?
每個文件夾應該由單個映射器讀取?你爲什麼需要它?看起來不安,你描述的工作想要更具體地完成,也許你問B但實際上想要A – michaeltang
好吧。我需要在每個文件夾的單個文件中提取和寫入Xpath值。所以完全應該有200個輸出文件 – Backtrack
不。如果我爲每個xml創建一個映射器,那麼將會有大約2個映射器,這會降低性能 – Backtrack