解析apache pig中的XML和HTML

我們如何使用apache pig來運行XML。我嘗試使用piggybank.storage.XMLLoader函數，但它不適合我。我只在本地模式下運行豬工作。沒有錯誤，但沒有運行。解析apache pig中的XML和HTML

有沒有辦法解析阿帕奇豬的HTML頁面。

請幫幫我。

在此先感謝

2013-03-04 venkat

一般來說，用XML解釋器解析HTML並不管用。只有非常非常非常少的HTML文檔纔是格式良好的XML。即使大多數HTML5不是。這些是不同的規格/格式。 – GPI 2017-10-26 12:17:27

請嘗試運行MR模式的腳本。因爲許多功能/操作只能在MR模式下正常工作。

2013-03-21 09:33:10 Gargi

感謝您的回覆，但MR模式下的豬處理正確 – venkat 2013-04-16 05:44:36

試試這個代碼：

register <PIG_HOME>/contrib/piggybank/java/piggybank.jar; 
A= LOAD '/xmlfile' USING org.apache.pig.piggybank.storage.XMLLoader('<XML_tag>');

而且通過我的意思運行在MR模式豬和豬MR模式不是在本地模式（即豬-x本地）。

希望它有幫助。

2013-04-16 12:44:23 Gargi

謝謝gargi，你是對的。我沒有在本地模式下運行豬腳本。我有4個節點羣集（3 + 1）供我測試。只有我嘗試了相同的代碼。它的工作，但我們如何才能獲得給定的XML文件中的屬性和嵌套節點。 – venkat 2013-04-17 07:45:13

據我所知，在這種情況下，我們將不得不使用自定義分析器。 – Gargi 2013-04-25 10:40:50

您需要使用帶參數的org.apache.pig.piggybank.storage.XMLLoader（）。和Xpath。我發現this一個有用的。

2017-10-26 11:56:20

回答