2011-05-17 53 views
0

從Apache和Java中通過HttpClient4發出的請求獲得Html頁面的一部分的最佳方式是什麼?具體而言,我需要一個表格(它的內容)。
說明,示例或鏈接會很好。如何只獲取HTML頁面的一部分?

回答

2

你可以做的是從響應中創建一個DOM對象,因爲它應該是一個有效的文檔。

這樣做

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); 
DocumentBuilder builder = factory.newDocumentBuilder(); 
Document document = builder.parse(/* your input stream from response */); 
Element tableElement = document.getElementById("the-table-id"); 
1

阿德里安·羅德里格斯」的方式也不錯,但不幸的是,如果HTML爲XHTML(即格式正確XML)它只會工作。您可以使用名爲Web Harvest的庫(可在sourceforge.net上獲得)來抓取頁面並以聲明方式提取表格,而不是編寫代碼來執行此操作。它還包含構建腳本中的階段,用於根據需要清理頁面。我強烈建議使用它,因爲它會是一個更強大的解決方案,尤其是在將來您需要刮取其他頁面時。