我使用Apache Nutch 1.10來抓取網頁並提取頁面中的內容。某些鏈接包含在ajax調用中加載的動態內容。 Nutch無法抓取並提取ajax的動態內容。我該如何解決這個問題?有沒有解決方法?如果是的話,請幫我解答。使用Nutch如何抓取uisng ajax網頁的動態內容?
在此先感謝。
我使用Apache Nutch 1.10來抓取網頁並提取頁面中的內容。某些鏈接包含在ajax調用中加載的動態內容。 Nutch無法抓取並提取ajax的動態內容。我該如何解決這個問題?有沒有解決方法?如果是的話,請幫我解答。使用Nutch如何抓取uisng ajax網頁的動態內容?
在此先感謝。
大多數網絡爬蟲庫不提供開箱即用的javascript渲染。您通常需要插入另一個庫,或者提供像Selenium或PhantomJS這樣的js渲染的產品。
簽出最新的Nutch 1.11中繼,其中包括一個新的插件協議交互式硒。 (https://github.com/apache/nutch/tree/trunk/src/plugin/protocol-interactiveselenium)
這個插件允許你編寫你自己的處理程序並執行javascript來獲取動態內容。
感謝您的回覆。我已按照該鏈接中的說明進行操作。我已經包括硒插件一切都很好。但在爬行之後沒有數據。如果我沒有使用硒插件,我正在獲取數據內容。 – yoganandh
我有同樣的問題,爬網後沒有內容。你是否按照教程中的說明編譯了nutch? – derelict