2011-10-27 45 views

回答

2

我不確定你在問什麼;一個HTML解析器解析HTML - 你從中提取出來的東西取決於你。我喜歡jsouptagsoup

如果您希望從HTML中拉出「正常」內容,您可以查看Apache Tika如何處理HTML。所有的HTML都以不同的方式寫入 - 你必須能夠定義什麼是「正常」的內容,並且其中是。

+0

我找到了令人難以置信的解析器,正是我所期待的。 你可以檢查一下你自己的開源代碼:http://boilerpipe-web.appspot.com/ – Paulius

+0

@Paulius這看起來很酷;類似於Tika所做的。感謝您的參考。 –