0
我正在編寫一個應用程序,我們需要定期監視大約5000多個網站,並使用特定內容填充數據庫,例如作者,標題,日期,摘要,內容等。由於我們正在尋找非常具體和準確的內容,我們計劃使用每個站點/頁面類型的自定義設計的XPath腳本,並使用這些腳本來驅動解析器。在java中使用自定義設計的特定xpath腳本解析html
它是一個基於Java的應用程序。
Java中是否有任何準備好的庫來執行此操作?我們非常熟悉JTidy,但它並不完全符合我們的要求。
有沒有更好的方法可以推薦?
請注意 - 我已經經歷了噸解析/ XPath相關的問題,並沒有發現任何回答這個問題。
非常感謝..
感謝Paul ...我們將嘗試構建我們的Xpath腳本驅動程序並給JSoup一個鏡頭。雖然我們可能會堅持Selenium的拼搶,因爲我們有很好的專業知識。 – Debasish