2010-03-04 42 views
0

是否有簡單的方法來解析整個HTML頁面並從該頁面的代碼中提取特定的部分?即我得到這個site的RSS提要此網址:http://www.groundreport.com/Sports/Bret-Hart-says-Farewell-to-WWE_4/2918823閱讀Grails/Groovy中的URL內容

我想要做的就是解析鏈接和檢索相關圖片,標籤,並從該頁面的其他信息。有沒有可輕鬆解析HTML代碼的Java庫或Grails插件?

有關如何處理此任務的建議將不勝感激。

回答

1

您可以嘗試Tagsoup庫。
有一個例子here

+0

看起來很有希望。非常感謝! – firnnauriel 2010-03-04 10:06:18

+0

我對TagSoup的HTML解析有很好的體驗,+1。 – 2010-03-10 16:22:16

0

如果HTML是格式良好的XML,則可以使用任何Groovy XML解析技術。實際上,您可能無法保證這一點,所以HTML解析器是更好的選擇。在過去,我使用了Jericho HTML parser(一個Java庫),並對結果非常滿意。