2017-01-15 61 views
-3

http://pslsource.com/buy_tennessee_titans_psl/我試圖用Node.js去掉一個網站,但是我被網站阻止了。我該如何解決這個問題?

這是我試圖報廢的網站。它有一些價格表,我不能通過我的Node應用程序訪問它(這是在Heroku上)。我如何重新訪問它?任何代理或其他建議?

下面的代碼,以及:

var Horseman = require("node-horseman"); 

var h = new Horseman({timeout: 50000}); 

h.open("http://pslsource.com/buy_tennessee_titans_psl/") 
.waitForSelector("body") 
.text("body") 
.then(function(data) { 
    console.log(data); 
}); 

注:所有的學分將支付給原網站,我不會要求該數據作爲我自己。

回答

1

事實上,您已被禁止訪問該網站,這清楚地表明,抓取該網站違反了所有者的意圖。您可以通過使用代理並向其API發送請求來「解決」此問題。

但是,如果抓取該網站實際上是一項合法行爲,那麼請發送電子郵件給他們並解釋他們爲什麼打算抓取他們的網站,說服他們您的意圖不符合他們的利益。他們可能會給你一個出口。如果不是,那麼不要嘗試從那裏提取數據。

+0

+1,這種類型的阻止通常會在您的抓取工具表現不佳時發生,例如,每秒請求數太多。 – Paul

相關問題