爲什麼scraperwiki會忽略被刮掉的html行？

我有scraperwiki一個非常簡單的Python腳本：爲什麼scraperwiki會忽略被刮掉的html行？

import scraperwiki 
import lxml.html 

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php") 
print html

我沒有寫任何東西來分析它尚未......現在我只想HTML。

當我在編輯模式下運行它完美的作品。

當一個計劃的Scrape運行（或我手動運行它）時，它會省略數十（甚至數百）行。

這是一個非常小的網頁，所以數據超載應該不成問題。有任何想法嗎？

2012-03-07 maneesha

你確定它不是一個如何在scraperwiki上處理印刷的假象嗎？ – Marcin 2012-03-07 14:39:40

不確定...我在我的html輸出中間出現一行，它的內容如下所示 - 實際數字每次都不相同（括號中包括）：[53行，159000個字符省略] – maneesha 2012-03-07 14:43:24

在scraperwiki文檔中找不到任何內容關於它 – maneesha 2012-03-07 14:44:55

在編輯器中，單個打印語句被彙總成一行顯示。您可以在編輯器的控制檯中單擊「more ...」查看整個批次。

運行計劃時，它只是輸出完全像在任何控制檯。所以如果HTML中有回車符，你會得到很多輸出。

爲了減少我們存儲的輸出量，我們從計劃運行中截斷了大量輸出。這就是你見過的地方「[53行，159000個字符省略]」。

這不是真的打算從調度運行的標準輸出是除了調試以外的任何東西。您需要保存到數據存儲以獲取要使用的輸出。

2012-03-07 16:14:13 frabcus

謝謝...我不知道你不能存儲整個html。 – maneesha 2012-03-08 13:47:17

不知道你的意思是存儲......從計劃運行存儲的stdout只是爲了調試。你可以在SQLite數據庫中存儲其他東西... – frabcus 2012-03-09 15:03:37

聽起來像你的變量中有數據。嘗試一次打印一行。

2012-03-07 14:45:19 Marcin

回答