2010-01-13 17 views
0

也歡迎其他想法。我試圖採取一個Excel文件,使用python生成一個JavaScript的HTML網頁,將基本上顯示一個畫廊(或某種目錄結構)的XML。 excel文件將非常龐大,但讓我們假設時間並不那麼重要。是否有任何可以截取網站內容截圖並裁剪版面的內容?

到目前爲止,我可以將Excel電子表格的製表符分隔版本轉換爲XML格式,並且我擁有所有的鏈接...現在,我只需要打開瀏覽器並截取屏幕截圖並將其裁剪方式,或保存某些部分的網絡內容一些如何...

我在想使用硒作爲網絡爬蟲,然後使用自動執行鍵盤命令來保存所有的網頁,但這將不適用於各種原因(也會非常緩慢)。

想法?

我看到一個「智能作物」發生的一個例子是在camtasia,他們放大了他們認爲重點的屏幕某些部分。我認爲這可以在一定程度上起作用。然後我再也不知道如何以很高的準確度做出這樣的假設。

回答

1

您可能可以使用pywebkitgtk來渲染HTML,然後使用PIL來處理圖像。