Jsoup爲不同的網站選擇鏈接

這樣一個網頁：https://en.wikipedia.org/wiki/Cloud_computing

我要過濾鏈接，如： https://en.wikipedia.org/wiki/Light

哈希標籤鏈接en.wikipedia.org/wiki/Cloud_computing#cite_note-1

我嘗試doc.select("a[href*=#]").remove();它工作得很好，在HTML頁面哈希標記鏈接src：<a href="#cite_ref-1">

但是當我使用doc.select("a[href]*=/]").remove();其中l油墨頁面html src

<a href="/wiki/Light">CH</a>

但仍有尚未過濾的鏈接。這怎麼可能？

來源

2015-09-06 Rehama

如果我的回答解決你所描述的問題，那麼你就應該接受它，以便該線程可以考慮關閉。如果沒有，那麼請提供一些反饋，以便我可以更新我的答案 – alkis

非常感謝我檢查你的答案再次與我的代碼，它的作品。 – Rehama

你有一個錯字。

doc.select("a[href]*=/]").remove();

它應該是這樣的

doc.select("a[href*=/]").remove();

但這將刪除含/的每一個環節。這是你想要的，還是你想刪除每個以/開頭的鏈接。在這種情況下，你需要這個

doc.select("a[href^=/]").remove();

來源

2015-09-07 03:44:37 alkis

@ alkis我試過doc.select（「a [href^=//」「）。刪除每個以/開頭的鏈接，但我得到了這些異常org.jsoup.UnsupportedMimeTypeException：未處理的內容類型。必須是text/*，application/xml或application/xhtml + xml。 Mimetype = application/pdf，URL = http：//france.emc.com/collateral/white-paper/h12825-cloud-foundry-paas-vblock-wp.pdf – Rehama

這是一個與您發佈的網址完全不同的網址你的問題。此外，這個問題與您在問題中提到的問題完全不同。請更新您的問題。 – alkis

Jsoup爲不同的網站選擇鏈接

回答

相關問題