2010-02-27 105 views
5

我對鏈接列表進行索引,這些鏈接更新頻率很高,所以我自動爲網站指定縮略圖。抓取網頁的「預覽」 - Python

對於大多數網站來說,這很容易,因爲我只是抓住頁面上最大的圖片,希望能夠描述內容。

但其他時間有視頻作爲頁面的主要內容。


有人有處理這個問題的提示嗎?那太好了!


關於的Webkit的使用創造截圖我found this

回答

3

wkhtmltopdf使用WebKit渲染引擎的嵌入式副本(在Safari中,鉻等)到網頁保存爲PDF格式,包括所有圖片(儘管我猜想沒有Flash視頻)。這可能是一個更準確的縮略圖的起點。

+0

+1不錯的起點。 –

+0

這是個好主意。我會看看我能找到什麼。這將是**偉大的**,如果我能想出如何使用這一點。 – RadiantHex