我對Node.js很陌生,所以如果我不知道我在說什麼,請提前道歉。Node.js刮ASU課程
我試圖從ASU的課程目錄(https://webapp4.asu.edu/catalog/)上刮掉一些課程,並且使用Zombie,Node.IO和HTTPS API進行了大量嘗試。在這兩種情況下,我都遇到了重定向循環。
我想知道是不是因爲我沒有正確設置我的標題?
下面是我使用(不殭屍/ Node.IO)示例代碼:
var https = require('https');
var option = {
host: 'webapp4.asu.edu',
path: '/catalog',
method: 'GET',
headers: {
'set-cookie': 'onlineCampusSelection=C'
}
};
var req = https.request(options, function(res) {
console.log("statusCode: ", res.statusCode);
console.log("headers: ", res.headers);
res.on('data', function(d) {
process.stdout.write(d);
});
});
只是爲了澄清,我並沒有與一般使用的是Node.js刮麻煩。但更具體的是,ASU的課程目錄給我帶來了麻煩。
欣賞你們可以給我的任何想法,謝謝!
更新:如果我使用從Chrome/FF獲得的JSESSIONID創建cookie,我的請求就成功通過了。有沒有辦法讓我申請/創建一個JSESSIONID?
下面是關於如何刮網頁用Node.js的一個完整的文章:HTTP://網。 tutsplus.com/tutorials/javascript-ajax/how-to-scrape-web-pages-with-node-js-and-jquery/ – alessioalex