2013-03-04 41 views
0

我們如何使用apache pig來運行XML。我嘗試使用piggybank.storage.XMLLoader函數,但它不適合我。我只在本地模式下運行豬工作。沒有錯誤,但沒有運行。解析apache pig中的XML和HTML

有沒有辦法解析阿帕奇豬的HTML頁面。

請幫幫我。

在此先感謝

+0

一般來說,用XML解釋器解析HTML並不管用。只有非常非常非常少的HTML文檔纔是格式良好的XML。即使大多數HTML5不是。這些是不同的規格/格式。 – GPI 2017-10-26 12:17:27

回答

0

請嘗試運行MR模式的腳本。因爲許多功能/操作只能在MR模式下正常工作。

+0

感謝您的回覆,但MR模式下的豬處理正確 – venkat 2013-04-16 05:44:36

0

試試這個代碼:

register <PIG_HOME>/contrib/piggybank/java/piggybank.jar; 
A= LOAD '/xmlfile' USING org.apache.pig.piggybank.storage.XMLLoader('<XML_tag>'); 

而且通過我的意思運行在MR模式豬和豬MR模式不是在本地模式(即豬-x本地)。

希望它有幫助。

+0

謝謝gargi,你是對的。我沒有在本地模式下運行豬腳本。我有4個節點羣集(3 + 1)供我測試。只有我嘗試了相同的代碼。它的工作,但我們如何才能獲得給定的XML文件中的屬性和嵌套節點。 – venkat 2013-04-17 07:45:13

+0

據我所知,在這種情況下,我們將不得不使用自定義分析器。 – Gargi 2013-04-25 10:40:50

1

您需要使用帶參數的org.apache.pig.piggybank.storage.XMLLoader()。 和Xpath。我發現this一個有用的。