2013-06-27 68 views
8

我嘗試抓取sitemap.xml的所有鏈接以重新緩存網站。但wget的遞歸選項不起作用,我只得到迴應:通過wget命令抓取sitemap.xml鏈接

遠程文件存在但不包含任何鏈接 - 不檢索。

但是肯定的是,sitemap.xml中充滿了「http:// ...」鏈接。

我試過幾乎所有的工作對我來說wget的,但沒有的選項:

wget -r --mirror http://mysite.com/sitemap.xml 

有誰知道如何打開一個網站的sitemap.xml內部的所有鏈接?

感謝, 多米尼克

回答

10

似乎wget無法解析XML。所以,你必須手動提取鏈接。你可以這樣做:

wget --quiet http://www.mysite.com/sitemap.xml --output-document - | egrep -o "https?://[^<]+" | wget -i - 

我學會了這個把戲here

+1

如何將每個下載的html文件名設置爲頁面標題?現在一切都只是index.html,index.html.1,index.html.2等 – user2028856

+0

希望看到一個詳細說明,這在xml文件結構中的許多孩子說...任何人?雖然這很好!謝謝! – lcm

+0

我有gz格式的網站地圖,該如何訪問網址。 – StarWars