我們如何使用apache pig來運行XML。我嘗試使用piggybank.storage.XMLLoader函數,但它不適合我。我只在本地模式下運行豬工作。沒有錯誤,但沒有運行。解析apache pig中的XML和HTML
有沒有辦法解析阿帕奇豬的HTML頁面。
請幫幫我。
在此先感謝
我們如何使用apache pig來運行XML。我嘗試使用piggybank.storage.XMLLoader函數,但它不適合我。我只在本地模式下運行豬工作。沒有錯誤,但沒有運行。解析apache pig中的XML和HTML
有沒有辦法解析阿帕奇豬的HTML頁面。
請幫幫我。
在此先感謝
試試這個代碼:
register <PIG_HOME>/contrib/piggybank/java/piggybank.jar;
A= LOAD '/xmlfile' USING org.apache.pig.piggybank.storage.XMLLoader('<XML_tag>');
而且通過我的意思運行在MR模式豬和豬MR模式不是在本地模式(即豬-x本地)。
希望它有幫助。
您需要使用帶參數的org.apache.pig.piggybank.storage.XMLLoader()。 和Xpath。我發現this一個有用的。
一般來說,用XML解釋器解析HTML並不管用。只有非常非常非常少的HTML文檔纔是格式良好的XML。即使大多數HTML5不是。這些是不同的規格/格式。 – GPI 2017-10-26 12:17:27