我剛剛開始探索Jsoup並面臨以下問題:當我嘗試從僅屬於維基百科英文版的https://en.wikipedia.org/wiki/Knowledge
中提取鏈接時,正常工作。jsoup - 如何從維基百科文章的文本中獲取鏈接
Document document = Jsoup.connect("https://en.wikipedia.org/wiki/Knowledge").timeout(6000).get();
Elements linksOnPage = document.select("a[href^=\"/wiki/\"]");
for (Element link : linksOnPage) {
System.out.println("link : " + link.attr("abs:href"));
}
}
不過我也越來越不屬於當前的物品,如文本鏈接:
link : https://en.wikipedia.org/wiki/Main_Page
link : https://en.wikipedia.org/wiki/Portal:Contents
link : https://en.wikipedia.org/wiki/Portal:Featured_content
link : https://en.wikipedia.org/wiki/Portal:Current_events
link : https://en.wikipedia.org/wiki/Special:Random
link : https://en.wikipedia.org/wiki/Help:Contents
link : https://en.wikipedia.org/wiki/Wikipedia:About
link : https://en.wikipedia.org/wiki/Wikipedia:Community_portal
什麼是讓只從文本領先的鏈接的正確方法到Jsoup的其他維基百科文章?
https://jsoup.org/cookbook/extracting-data/selector-syntax – matoni
@matoni感謝。我發現我不需要的鏈接位於'div id =「mw-panel」'中。所以我根據jsoup cookbook編輯鏈接的選擇器,如下所示:元素linksOnPage = document.select(「a [href^= \」/ wiki/\「],div:not(.mw-panel) 「);'。但我仍然從維基百科側面板上獲得不需要的鏈接。 – samba