閱讀Grails/Groovy中的URL內容

是否有簡單的方法來解析整個HTML頁面並從該頁面的代碼中提取特定的部分？即我得到這個site的RSS提要此網址：http://www.groundreport.com/Sports/Bret-Hart-says-Farewell-to-WWE_4/2918823 閱讀Grails/Groovy中的URL內容

我想要做的就是解析鏈接和檢索相關圖片，標籤，並從該頁面的其他信息。有沒有可輕鬆解析HTML代碼的Java庫或Grails插件？

有關如何處理此任務的建議將不勝感激。

您可以嘗試Tagsoup庫。
有一個例子here。

2010-03-04 09:44:56 Philippe

看起來很有希望。非常感謝！ – firnnauriel 2010-03-04 10:06:18

我對TagSoup的HTML解析有很好的體驗，+1。 – 2010-03-10 16:22:16

我簡要地看了一下WebHarvest一年多前，它看起來不錯。

2010-03-04 10:14:18 wwwclaes

如果HTML是格式良好的XML，則可以使用任何Groovy XML解析技術。實際上，您可能無法保證這一點，所以HTML解析器是更好的選擇。在過去，我使用了Jericho HTML parser（一個Java庫），並對結果非常滿意。

2010-03-04 14:51:36

回答