我已經學會了如何創建一個HTTP Get請求方法來從URL檢索數據,但是我想過濾響應只給我一個網頁鏈接列表。如何過濾HTTP獲取響應?
例如,如果HTML包含以下文字:
<link href="http://www.thompsons.co.uk">
那麼它應該打印出來:
我已經學會了如何創建一個HTTP Get請求方法來從URL檢索數據,但是我想過濾響應只給我一個網頁鏈接列表。如何過濾HTTP獲取響應?
例如,如果HTML包含以下文字:
<link href="http://www.thompsons.co.uk">
那麼它應該打印出來:
您在整個數據完全讀出,然後用正則表達式解析它提取鏈接。在這裏閱讀更多:http://www.mkyong.com/regular-expressions/how-to-extract-html-links-with-regular-expression/
我強烈建議你不要使用正則表達式來「解析」HTML。除非您可以控制正在處理的網頁的格式,否則基於正則表達式的解決方案可能會變得脆弱和錯誤。
而是使用寬容的HTML解析器。這個問題可以讓多個解決方案:HTML/XML Parser for Java
Ermm ......沒人提到託尼的小馬駒??? http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 –
取決於案件。我在分析特定來源的鏈接和/或其他內容時使用了正則表達式。如果案例是解析通用鏈接,那麼也許另一種方法更好。 – Endy