我正在從事網頁抓取工作。目前我想要廢棄一個網站。我從robots.txt文件中獲得了xml文件鏈接。現在我想從該XML讀取所有網址。但不能做到這一點。任何人都可以幫我弄明白嗎?如何通過Node.js從xml中檢索URL?
XML格式:
<urlset>
<url>
<loc>http://www.xxxx.com/</loc>
<changefreq>test</changefreq>
</url>
<url>
<loc>http://www.xxxx.com/</loc>
<changefreq>test</changefreq>
</url>
</urlset>
這裏是我的代碼:
var fs = require('fs')
, flow = require('xml-flow')
, inFile = fs.createReadStream(xml_file_url)
, xmlStream = flow(inFile)
;
xmlStream.on('tag:urlset', function(err,url) {
if(err)
return console.log(err);
console.log(url);
res.send('Check your console!')
});
我希望所有從祿網址&推動他們的陣列上。我怎麼解決這個問題?提前致謝。
的建議。如果您知道如何使用jQuery遍歷節點,請參閱https://github.com/cheeriojs/cheerio –