1
我想在Hadoop中處理格式化的XML,這非常複雜且龐大,並且還包含循環。在Hadoop中處理複雜的XML以提取數據
我嘗試以下選項:
- 加載到個XML配置單元將作爲一列,並使用XPath查詢。
- 使用SerDe創建Hive表。
- 使用XMLLoader使用PIG加載XML。
選項1是可能的,但在XML中獲取數據非常深的情況下變得很困難。
對於選項2和3 Hive SerDe和Pig Loader要求Schema明確定義,因此無法完成。
有沒有其他方法?