2012-02-05 78 views
1

我需要抓取幾個URL並將其內容抓取到數據庫中。使用Ruby抓取外部JavaScript文件

抓取的數據必須同時包含HTML和外部CSS和JS文件。

我曾經引入nokogiri搶CSS沒有問題,但我不能那樣容易得到Javacript ..

這裏是我的相關代碼:

...

arrJS = [] 
page = Nokogiri::HTML(open(url)) 
page.css('script').map {|link| arrJS << link['src'].to_s} 

..

當我在像yahoo.com這樣的網站上使用這個功能時 - 我得到一個與html上的javascript無關的wierd arrJS數組。

有什麼想法?

+0

什麼「怪異」的數組,你得到什麼?我不明白爲什麼這不起作用(除'