2012-07-18 42 views
0

我試圖找出一種方法來獲取網頁中的所有超鏈接 - 除非它們在錨標籤()中。Java傑里科超鏈接解析

爲此,我使用了Jericho解析器。

我最初的做法是採取 List<Element> elementList = source.getAllElements();getAllElements(HTMLElementName.A)之間的差異,但其他元素也可能包含在其中的錨鏈接,所以我不認爲這是正確的做法。

回答

0

我建議你Jsoup Html處理。

這裏有一個例子,你如何能得到的所有鏈接(= a - 標籤與href -attribute):

Document doc = Jsoup.connect("http:// - link here -").get(); // Connect to website and parse its html 
Elements links = doc.select("a[href]"); // Select all 'a'-tags' with 'href'-attribute 

for(Element element : links) // iterate over all links (example) 
{ 
    // process element 
} 

文檔:

順便說一句。你能再解釋一下嗎?

除非他們是在一個錨定標記