2015-09-06 78 views
0

我使用JSOUP過濾鏈接出html身體。Jsoup爲不同的網站選擇鏈接

這樣一個網頁:https://en.wikipedia.org/wiki/Cloud_computing

我要過濾鏈接,如: https://en.wikipedia.org/wiki/Light

哈希標籤鏈接en.wikipedia.org/wiki/Cloud_computing#cite_note-1

我嘗試doc.select("a[href*=#]").remove();它工作得很好,在HTML頁面哈希標記鏈接src:<a href="#cite_ref-1">

但是當我使用doc.select("a[href]*=/]").remove();其中l油墨頁面html src

<a href="/wiki/Light">CH</a> 

但仍有尚未過濾的鏈接。這怎麼可能?

+0

如果我的回答解決你所描述的問題,那麼你就應該接受它,以便該線程可以考慮關閉。如果沒有,那麼請提供一些反饋,以便我可以更新我的答案 – alkis

+0

非常感謝我檢查你的答案再次與我的代碼,它的作品。 – Rehama

回答

0

你有一個錯字。

doc.select("a[href]*=/]").remove(); 

它應該是這樣的

doc.select("a[href*=/]").remove(); 

但這將刪除含/的每一個環節。 這是你想要的,還是你想刪除每個以/開頭的鏈接。 在這種情況下,你需要這個

doc.select("a[href^=/]").remove(); 
+0

@ alkis我試過doc.select(「a [href^=//」「)。刪除每個以/開頭的鏈接,但我得到了這些異常org.jsoup.UnsupportedMimeTypeException:未處理的內容類型。必須是text/*,application/xml或application/xhtml + xml。 Mimetype = application/pdf,URL = http://france.emc.com/collat​​eral/white-paper/h12825-cloud-foundry-paas-vblock-wp.pdf – Rehama

+0

這是一個與您發佈的網址完全不同的網址你的問題。此外,這個問題與您在問題中提到的問題完全不同。請更新您的問題。 – alkis