2012-03-07 37 views
1

我有scraperwiki一個非常簡單的Python腳本:爲什麼scraperwiki會忽略被刮掉的html行?

import scraperwiki 
import lxml.html 

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php") 
print html 

我沒有寫任何東西來分析它尚未......現在我只想HTML。

當我在編輯模式下運行它完美的作品。

當一個計劃的Scrape運行(或我手動運行它)時,它會省略數十(甚至數百)行。

這是一個非常小的網頁,所以數據超載應該不成問題。有任何想法嗎?

+0

你確定它不是一個如何在scraperwiki上處理印刷的假象嗎? – Marcin 2012-03-07 14:39:40

+0

不確定...我在我的html輸出中間出現一行,它的內容如下所示 - 實際數字每次都不相同(括號中包括):[53行,159000個字符省略] – maneesha 2012-03-07 14:43:24

+0

在scraperwiki文檔中找不到任何內容關於它 – maneesha 2012-03-07 14:44:55

回答

0

在編輯器中,單個打印語句被彙總成一行顯示。您可以在編輯器的控制檯中單擊「more ...」查看整個批次。

運行計劃時,它只是輸出完全像在任何控制檯。所以如果HTML中有回車符,你會得到很多輸出。

爲了減少我們存儲的輸出量,我們從計劃運行中截斷了大量輸出。這就是你見過的地方「[53行,159000個字符省略]」。

這不是真的打算從調度運行的標準輸出是除了調試以外的任何東西。您需要保存到數據存儲以獲取要使用的輸出。

+0

謝謝...我不知道你不能存儲整個html。 – maneesha 2012-03-08 13:47:17

+0

不知道你的意思是存儲......從計劃運行存儲的stdout只是爲了調試。你可以在SQLite數據庫中存儲其他東西... – frabcus 2012-03-09 15:03:37

0

聽起來像你的變量中有數據。嘗試一次打印一行。