2017-08-08 131 views
0

我基本上是寫一個小型的網頁抓取代碼。最初,我去了NodeJS + Request + Cheerio颳去網站,但後來我意識到Cheerio只適用於靜態網頁,而不適用於那些使用JS加載DOM對象的網頁。scraperjs:網絡抓取代碼不工作

那麼我去了ScraperJS,因爲它有Static_Dynamic ContentScraper。 我已經設置了這裏指定的所有依賴關係:https://github.com/ruipgil/scraperjs

但是我的代碼仍然無法正常工作,這是他們的github存儲庫上給出的示例代碼。 平臺:Windows 7中,通過CMD運行:節點file_name.js

代碼:

var scraperjs = require('scraperjs'); 
    console.log("a2"); 
scraperjs.DynamicScraper.create('https://news.ycombinator.com/') 
    .scrape(function($) { 
     return $(".title a").map(function() { 
      return $(this).text(); 
     }).get(); 
    }) 
    .then(function(news) { 
     console.log(news); 
    }) 
+0

它不起作用?什麼是錯誤返回? – Veve

+0

@保持它不返回任何錯誤。我使用節點hello.js運行它,它只是執行而不打印任何內容並終止。我無法調試幕後發生的事情。它與ScraperJS Github帳戶中的代碼相同,它的入門教程 – ami27

+0

它甚至不輸出「a2」? – Veve

回答

0

this issue,它來自phantomJS,這是爲了使DynamicScraper工作被降級。

您必須將phantomJS降級到版本1.9.8,或使用4.8版本的NodeJS。