2016-10-24 70 views
0

我有一個頁面可能以某種方式免受無頭瀏覽器的攻擊,但我當然不知道。事情是,在瀏覽器中加載得很好,JavaScript執行並且一切都很好。當使用phanthomjs,它不會,似乎任何JavaScript不執行或發生其他問題。無法刮取網址PhanthomJs

我該怎麼找到?你推薦什麼來刮那個頁面?

+0

@ArtjomB。,這是我的網站。 – Jio

+0

確實phantomjs崩潰?返回你empy頁面? 你有一些代碼嗎?你如何調用phantomjs? 也試試喲設置用戶代理 – gosom

+0

@Jio你可以顯示你的代碼,或者你正在嘗試的簡化版本嗎?如果可能的話,你試圖抓取的網址。 – user3366016

回答

1

這是一個基本的phantomjs腳本,如果對指示的url的請求成功或不成功,它將打印到控制檯。這應該有助於您查看是否可以訪問該頁面。如果你獲得成功,你應該能夠刮。這會讓我認爲這是你的JS導致的問題,而不是無頭瀏覽器。如果你打印出'失敗',你可以設置userAgent設置,使它看起來像一個真正的瀏覽器。

var page = new WebPage(); 
// Uncomment the next line to set the user agent. 
//page.settings.userAgent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36'; 
page.open('http://www.google.ca', function (status) { 
    if (status !== 'success') { 
     console.log('Unsuccessful'); 
    } else { 
     console.log('Successful') 
    } 
    phantom.exit(); 
}); 

http://www.google.ca更改爲您想要的網址。