5
試圖以編程方式從Netflix中獲取我上次查看的數據,但僅在登錄階段出現一些問題。我目前的代碼只是導致Netflix回吐We were unable to process your request.
頁面:刮Netflix
var request = require('request').defaults({jar: true});
var cheerio = require('cheerio');
var url = "https://www.netflix.com/Login?locale=en-GB&nextpage=https%3A%2F%2Fwww.netflix.com%2FWiViewingActivity";
request(url, function (error, response, body) {
if (!error && response.statusCode == 200) {
var $ = cheerio.load(body);
var authCode = $("#login-form > input").attr("value");
request.post(url+"?email=myemail%40gmail.com&password=mypassword&RememberMe=on&authURL="+authCode, {
}, function(err, response, body){
console.log(body);
});
}
})
任何想法?
令人驚訝的是,Google上幾乎沒有Scraping Netflix
。
他們使用認證cookie嗎? Java和Python中有更好的庫。嘗試Ui4j或硒。對於nodejs,請嘗試https://www.npmjs.com/package/selenium-webdriver。今天的許多時間站點不僅僅提供基本的視圖狀態。您可能需要處理JavaScript。這可以從authcode要求中明顯看出。 –
@Jazcash另外,如果你沒有螢火蟲和火狐,我會推薦他們。那或者wireshark。使用螢火蟲查找任何剩餘的後期參數或其他選項。我看到的參數比您提供的還要多,cheerio網站的結構也不同。從我的結尾看來,您提交查詢參數而不是表單數據(例如http://www.netflix.com/q?key=value v。url:....,表單:{key:value})https ://www.webniraj.com/2015/03/16/nodejs-scraping-websites-using-request-and-cheerio/ –
當我搜索'刮netflix'時,我得到了400K項目。這還不夠嗎? ;-)上面的好東西。祝你好運! – shellter