0
我有一個頁面可能以某種方式免受無頭瀏覽器的攻擊,但我當然不知道。事情是,在瀏覽器中加載得很好,JavaScript執行並且一切都很好。當使用phanthomjs,它不會,似乎任何JavaScript不執行或發生其他問題。無法刮取網址PhanthomJs
我該怎麼找到?你推薦什麼來刮那個頁面?
我有一個頁面可能以某種方式免受無頭瀏覽器的攻擊,但我當然不知道。事情是,在瀏覽器中加載得很好,JavaScript執行並且一切都很好。當使用phanthomjs,它不會,似乎任何JavaScript不執行或發生其他問題。無法刮取網址PhanthomJs
我該怎麼找到?你推薦什麼來刮那個頁面?
這是一個基本的phantomjs腳本,如果對指示的url的請求成功或不成功,它將打印到控制檯。這應該有助於您查看是否可以訪問該頁面。如果你獲得成功,你應該能夠刮。這會讓我認爲這是你的JS導致的問題,而不是無頭瀏覽器。如果你打印出'失敗',你可以設置userAgent設置,使它看起來像一個真正的瀏覽器。
var page = new WebPage();
// Uncomment the next line to set the user agent.
//page.settings.userAgent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36';
page.open('http://www.google.ca', function (status) {
if (status !== 'success') {
console.log('Unsuccessful');
} else {
console.log('Successful')
}
phantom.exit();
});
將http://www.google.ca
更改爲您想要的網址。
@ArtjomB。,這是我的網站。 – Jio
確實phantomjs崩潰?返回你empy頁面? 你有一些代碼嗎?你如何調用phantomjs? 也試試喲設置用戶代理 – gosom
@Jio你可以顯示你的代碼,或者你正在嘗試的簡化版本嗎?如果可能的話,你試圖抓取的網址。 – user3366016