2011-09-06 45 views
0

我正在編寫一個應用程序,我們需要定期監視大約5000多個網站,並使用特定內容填充數據庫,例如作者,標題,日期,摘要,內容等。由於我們正在尋找非常具體和準確的內容,我們計劃使用每個站點/頁面類型的自定義設計的XPath腳本,並使用這些腳本來驅動解析器。在java中使用自定義設計的特定xpath腳本解析html

它是一個基於Java的應用程序。

Java中是否有任何準備好的庫來執行此操作?我們非常熟悉JTidy,但它並不完全符合我們的要求。

有沒有更好的方法可以推薦?

請注意 - 我已經經歷了噸解析/ XPath相關的問題,並沒有發現任何回答這個問題。

非常感謝..

回答

0

jsoup可以做解析,並具有selector-syntax(類似於jQuery的,所以如果你知道你飛)輕鬆地找到節點。

如果你想做一些HTML監控和下載,那麼我會使用HttpClient

+0

感謝Paul ...我們將嘗試構建我們的Xpath腳本驅動程序並給JSoup一個鏡頭。雖然我們可能會堅持Selenium的拼搶,因爲我們有很好的專業知識。 – Debasish