如何只獲取HTML頁面的一部分？

從Apache和Java中通過HttpClient4發出的請求獲得Html頁面的一部分的最佳方式是什麼？具體而言，我需要一個表格（它的內容）。
說明，示例或鏈接會很好。如何只獲取HTML頁面的一部分？

2011-05-17 baribari

你可以做的是從響應中創建一個DOM對象，因爲它應該是一個有效的文檔。

這樣做

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); 
DocumentBuilder builder = factory.newDocumentBuilder(); 
Document document = builder.parse(/* your input stream from response */); 
Element tableElement = document.getElementById("the-table-id");

來源

2011-05-17 18:09:52

阿德里安·羅德里格斯」的方式也不錯，但不幸的是，如果HTML爲XHTML（即格式正確XML）它只會工作。您可以使用名爲Web Harvest的庫（可在sourceforge.net上獲得）來抓取頁面並以聲明方式提取表格，而不是編寫代碼來執行此操作。它還包含構建腳本中的階段，用於根據需要清理頁面。我強烈建議使用它，因爲它會是一個更強大的解決方案，尤其是在將來您需要刮取其他頁面時。

來源

2011-05-17 18:37:02

如何只獲取HTML頁面的一部分？

回答

相關問題