2012-05-31 28 views
3

我嘗試使用下面的命令wget的下載供離線觀看,包括絕對引用

wget -p -k www.myspace.com/ 

這並下載頁面,該目錄下的任何圖像或腳本下載整個網頁,但我正在努力瞭解如何下載該頁面以進行完全離線查看。我如何獲得www.myspace.com源代碼中鏈接的所有圖像,腳本和樣式表,包括外部鏈接?

+0

我希望你有一個巨大的硬盤。 myspace.com並不是一個小小的網站。 – Corbin

+0

我不是什麼遞歸,這就是爲什麼我沒有-r或-m。我想要一個包含所有外部內容引用的離線版本的鏡像。此外它不是MySpace,我只是作爲一個例子,因爲它有圖像的外部參考 – brandon

回答

8
wget -e robots=off -H -p -k http://www.myspace.com/ 

的-H或--span的主機標誌是必要的一個完整的反射鏡,作爲頁可能包括在www.myspace.com域以外的主機內容。好的措施忽略機器人。

+1

的機器人政策-H是我所缺少的。感謝那 – brandon

+0

我知道這是超級老,但我發現它今天有幫助,並認爲我會補充說,你可能需要[限制跨越-D](https://www.gnu.org/software/wget/ manual/html_node/Spanning-Hosts.html)以避免抓取不需要的文件 – jbll

-1

wget -mk http://www.myspace.com/

適合我。我不清楚myspace或任何你想要專門反映的網站,但有時你必須通過其他一些選擇來解決無機器人政策。我不會說如何做到這一點,因爲這意味着你正在做一些你不應該做的事情。雖然這絕對有可能。

+0

我不是想鏡像整個網站。我想要一個包含所有外部內容引用的離線版本的鏡像。我知道如何讓它忽略機器人,但我爬行的網站沒有針對wget – brandon