2012-06-26 31 views
0

如果這是違反任何規則等,我提前表示歉意。 我試圖使用wget在本地克隆我的tumblr博客,這可以減少一個問題。它完全克隆頁面,但是我使用的主題有一個無限滾動腳本,因此,直到用戶滾動到最後一個帖子,沒有其他帖子被加載。這是一個問題,因爲wget只會捕獲第一頁,沒有更多。使用wget抓取整個tumblr?

目前,我使用的是:wget的--random等待-r -p -e機器人=關閉-U Mozilla的HTTP://.tumblr.com

有什麼辦法,我可以做到這個任務單獨使用wget? 感謝您的時間和幫助。

+0

不是一種編程相關的問題。 – Candide

回答

1

wget不會這樣做,因爲它不處理頁面中的JavaScript。你最好的選擇是使用tumblr API。它提供了一種抓取和發佈博客數據的機制。

+0

幾乎想到一樣。感謝您的快速回復,戴夫。 看起來這是一個遠遠超出我的經驗的任務,雖然它承認並沒有超過幾個月的Python培訓。 乾杯。 –

+0

使用Tumblr API最基本的功能非常簡單 - 這就是您需要獲取博客帖子的全部內容。所有這一切都需要您註冊一個API密鑰,然後您可以使用您的API密鑰的「公共」部分進行簡單的HTTP請求,以便通過博客帖子進行分頁。真的,這並不難!試試看,也許你會學到一些東西:) – Felix

1

您是否試過從/archive開始?

在任何情況下,我發現下面在得到一個主題一個博客的完整副本,沒有無限滾動有用:

wget --user-agent="Mozilla/5.0 XXX" \ 
--recursive --level=0 --convert-links --backup-converted --page-requisites \ 
--domains="xkcd.tumblr.com,media.tumblr.com" --exclude-domains="." --span-hosts \ 
http://xkcd.tumblr.com/