2010-10-22 30 views
5

我正在尋找一個簡單的輕量級Java庫解析HTML。我看了很多,有很多選擇。但我找不到簡單的東西。我真的想在python中有類似python的東西,除了在java中。我的要求是:快速,易於使用和輕量級。jquery像在java中的lib

我需要做什麼用的?不知道這是否重要,但我需要索引html文檔的一部分。所以我希望能夠快速選擇部分文檔,然後解析它。

回答

6

我已經在過去使用的HTMLParser。我對此並不滿意。我發現了tagsoup和jsoup。我真的很喜歡jsoup。沒有用它尚未廣泛,但你可以這樣做:

Elements resultLinks = doc.select("h3 > a"); // direct a after h3 
+0

使用jsoup後,我認爲這正是我正在尋找的東西。我不明白爲什麼經過這麼多的谷歌搜索,它沒有被發現,但它幾乎具備了我需要的所有功能。 – 2010-10-22 03:25:54

2

嘗試時髦。它有許多「slurpers」,它們是用於讀取XML和HTML等標記以及JSON的DSL。例如,here

+0

爲什麼這得到否決? – Ben 2010-10-22 00:20:27

+3

,這是一個蹩腳的投票下來,沒有評論爲什麼 – Ben 2010-10-22 00:21:12

+0

Groovy是一種在JVM上運行的語言,基本上很容易包含在您的項目中。我沒有看到這個被拒絕的原因。 – 2010-10-22 00:23:16

0

如果你想要一個jQuery像庫,你的問題你的標題所暗示的,你應該有一個過目GWT

GWT將讓您瀏覽頁面的DOM。 嘗試教程,並在30分鐘內,你會確定,如果你想知道更多或不...

+0

這似乎真的很重要的解析文本:( – 2010-10-22 03:03:34

1

使用tagsoup正常化的HTML到xhtml和XOM解析生成的文件。這並不難。

的XPath會給你輕鬆選擇類同CSS選擇器。

+1

我發現jsoup在http://jsoup.org/這是類似於什麼tagsoup是? – 2010-10-22 01:09:29

+0

看起來相似。Tagsoup有一個Java庫,你可以下載,但它沒有給出任何解析或查找能力,它只是產生良好的xml,你可以解析。 – 2010-10-22 05:10:34