我正在做一個與nodeJS的網絡爬蟲,它的工作,它調用頁面,我使用cheerio轉換爲JQuery,並調用標籤。NodeJS - 請求一個頁面以後加載的信息
現在我試圖調用頁面的註釋,但問題是,我想要的標記是在Ajax GET請求幾秒鐘後加載的。而且我做出的請求承諾找不到這個特定的標籤,因爲它稍後加載。
有一些方法可以找到標籤加載?
代碼:
/* Requires */
var rp = require('request-promise');
var cheerio = require('cheerio');
//Page to crawl
var pageToVisit = "http://pagetoVisit.com/page-with-comments.html";
console.log("Visiting "+pageToVisit);
var options = {
uri: pageToVisit,
transform: function (body) {
return cheerio.load(body);
},
resolveWithFullResponse: true,
simple: false
};
rp(options)
.then(function ($) {
console.log($('.CommentsTag').text());
})
.catch(function (err) {
console.log(err);
// Crawling failed...
});
提取ajax網址,然後做第二個請求。然而,這需要大量的調試,這可能不符合答案的範圍:/ –