2015-10-06 159 views
3

我使用Apache Nutch 1.10來抓取網頁並提取頁面中的內容。某些鏈接包含在ajax調用中加載的動態內容。 Nutch無法抓取並提取ajax的動態內容。我該如何解決這個問題?有沒有解決方法?如果是的話,請幫我解答。使用Nutch如何抓取uisng ajax網頁的動態內容?

在此先感謝。

回答

4

大多數網絡爬蟲庫不提供開箱即用的javascript渲染。您通常需要插入另一個庫,或者提供像Selenium或PhantomJS這樣的js渲染的產品。

這是tutorial using nutch and Selenium

+1

感謝您的回覆。我已按照該鏈接中的說明進行操作。我已經包括硒插件一切都很好。但在爬行之後沒有數據。如果我沒有使用硒插件,我正在獲取數據內容。 – yoganandh

+0

我有同樣的問題,爬網後沒有內容。你是否按照教程中的說明編譯了nutch? – derelict