如何過濾HTTP獲取響應？

我已經學會了如何創建一個HTTP Get請求方法來從URL檢索數據，但是我想過濾響應只給我一個網頁鏈接列表。如何過濾HTTP獲取響應？

例如，如果HTML包含以下文字：

<link href="http://www.thompsons.co.uk">

那麼它應該打印出來：

您可以使用jsoup：

2012-09-06 12:55:19

您在整個數據完全讀出，然後用正則表達式解析它提取鏈接。在這裏閱讀更多：http://www.mkyong.com/regular-expressions/how-to-extract-html-links-with-regular-expression/

2012-09-06 12:18:45 Endy

Ermm ......沒人提到託尼的小馬駒??? http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 –

取決於案件。我在分析特定來源的鏈接和/或其他內容時使用了正則表達式。如果案例是解析通用鏈接，那麼也許另一種方法更好。 – Endy

我強烈建議你不要使用正則表達式來「解析」HTML。除非您可以控制正在處理的網頁的格式，否則基於正則表達式的解決方案可能會變得脆弱和錯誤。

而是使用寬容的HTML解析器。這個問題可以讓多個解決方案：HTML/XML Parser for Java

2012-09-06 12:24:03

回答