2010-07-05 84 views
0

我需要刮掉一些網站,並且希望避免從我正在抓取的網頁下載圖像 - 我只需要文本。我希望這會加快這個過程。關於如何管理這個的任何想法?防止使用ScrAPI下載圖像

感謝, 喬恩

+1

大聲笑............ – hoju 2010-07-06 06:29:38

回答

2

雖然刮你不下載圖像,但是參考IMG標籤與整個body一起。在存儲到數據庫/渲染到視圖之前,您總是可以刪除服務器端的IMG標記。我建議你使用nokogiri來解析收到的內容並刪除所有出現的IMG標記。

但是這並沒有加快這個過程。它只是簡單的舊html被刮。如果您希望快速獲取並解析,請參閱Feedzirra,如果您正在處理訂閱源或者Typhoeus僅提取html內容。

+0

好的,謝謝你的解釋。我會看看Typhoeus。 – CHsurfer 2010-07-05 12:01:07