查詢的HTML頁面使用XPath在Java中

誰能告訴我一個Java庫，讓我在一個HTML頁面進行XPath查詢？我試過使用JAXP，但它一直給我一個奇怪的錯誤，我似乎無法修復（線程「主」的java.io.IOException：服務器返回HTTP響應代碼：503的URL：http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd）。查詢的HTML頁面使用XPath在Java中

非常感謝。

編輯

我發現這一點：

// Create a new SAX Parser factory 
SAXParserFactory factory = SAXParserFactory.newInstance(); 

// Turn on validation 
factory.setValidating(true); 

// Create a validating SAX parser instance 
SAXParser parser = factory.newSAXParser(); 

// Create a new DOM Document Builder factory 
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); 

// Turn on validation 
factory.setValidating(true); 

// Create a validating DOM parser 
DocumentBuilder builder = factory.newDocumentBuilder();

從http://www.ibm.com/developerworks/xml/library/x-jaxpval.html但轉動argumrent爲false沒有任何改變。

來源

2010-07-28 Leonardo Marques

幾個相關的問題 - 看http://stackoverflow.com/questions/9766776/extract-content-using-xpath-from-an-html-doc-using-pure-java http://stackoverflow.com/questions/3361263/library-to-query-html-with-xpath-in-java http://stackoverflow.com/questions/9022140/using-xpath-contains-against-html-in-java – 2013-01-07 00:39:57

設置解析器「非驗證」只是關閉驗證;它確實是而不是禁止獲取DTD。據我所知，獲取DTD不僅需要驗證，還需要實體擴展。

如果您想要取消DTD的提取，您需要在DocumentBuilderFactory或DocumentBuilder上註冊合適的EntityResolver。實施EntityResolver的resolveEntity方法總是返回一個空字符串。

來源

2010-10-23 06:03:43 Isaac

在此請看：

http://www.w3.org/2005/06/blog/systeam/2008/02/08/w3c_s_excessive_dtd_traffic

也許你有解析器設置爲執行DOM驗證，並且它試圖獲取DTD。 JAXP應該有一種方法來禁用DTD驗證，並且對假定有效的文檔運行XPATH。我沒有使用JAXP很多年，所以我很抱歉，我不能更有幫助。

來源

2010-07-28 12:30:50

查詢的HTML頁面使用XPath在Java中

回答

相關問題