目前我正在嘗試使用Java中的Jsoup庫來刮取靜態html頁面。我找到了一種方法來獲得我想要的東西,但我不確定要爲我的選擇器選擇什麼。之前,我使用的是CSS,但是我想要的文本位置對於每個html頁都不相同。如何使用Jsoup定位遵循特定網址的特定文本字段?
所以我想用這樣的邏輯,因爲該網頁的佈局方式是一個特定的URL後顯示的文字:
-Topic as a link-
Text field containing information related to Topic.
的HTML看起來像這樣
<A NAME="Topic"></A> <A HREF="#TOPIC LiNK"><H2> TITLE OF TOPIC </H2></A>
<PRE><B leftmargin=150 marginwidth=100\>Content that I want to scrape</B></PRE>
我想刮掉「我想刮的內容」中的所有內容。
自從看了看前面的XPath? [文檔站點有一個標籤](http://stackoverflow.com/documentation/xpath),並且只是做你想要的(或者至少如果我正確地理解了它)。 – ppeterka
問題是jsoup不支持XPath,或者至少不是我知道 – KrL
對不起,我確信它確實... JSoup是一個硬性要求嗎?我前一段時間使用了NekoHTML,這似乎支持XPath ...我也推薦HtmlUnit - 但是這太重了,太慢了... – ppeterka