使用wget抓取整個tumblr？

如果這是違反任何規則等，我提前表示歉意。我試圖使用wget在本地克隆我的tumblr博客，這可以減少一個問題。它完全克隆頁面，但是我使用的主題有一個無限滾動腳本，因此，直到用戶滾動到最後一個帖子，沒有其他帖子被加載。這是一個問題，因爲wget只會捕獲第一頁，沒有更多。使用wget抓取整個tumblr？

目前，我使用的是：wget的--random等待-r -p -e機器人=關閉-U Mozilla的HTTP：//.tumblr.com

有什麼辦法，我可以做到這個任務單獨使用wget？感謝您的時間和幫助。

來源

2012-06-26 Liam Johnson

不是一種編程相關的問題。 – Candide

wget不會這樣做，因爲它不處理頁面中的JavaScript。你最好的選擇是使用tumblr API。它提供了一種抓取和發佈博客數據的機制。

來源

2012-06-26 18:35:33

幾乎想到一樣。感謝您的快速回復，戴夫。看起來這是一個遠遠超出我的經驗的任務，雖然它承認並沒有超過幾個月的Python培訓。乾杯。 –

使用Tumblr API最基本的功能非常簡單 - 這就是您需要獲取博客帖子的全部內容。所有這一切都需要您註冊一個API密鑰，然後您可以使用您的API密鑰的「公共」部分進行簡單的HTTP請求，以便通過博客帖子進行分頁。真的，這並不難！試試看，也許你會學到一些東西:) – Felix

您是否試過從/archive開始？

在任何情況下，我發現下面在得到一個主題一個博客的完整副本，沒有無限滾動有用：

wget --user-agent="Mozilla/5.0 XXX" \ 
--recursive --level=0 --convert-links --backup-converted --page-requisites \ 
--domains="xkcd.tumblr.com,media.tumblr.com" --exclude-domains="." --span-hosts \ 
http://xkcd.tumblr.com/

來源

2013-10-29 03:01:28 cnst

使用wget抓取整個tumblr？

回答

相關問題