2013-08-30 66 views
0

我無法讓Wget正確地跟蹤鏈接。它獲取所有必要的文件來呈現頁面,甚至包含外部鏈接,只要它們在同一個父目錄中即可。不幸的是,如果它們位於相同的域但不同的目錄中,則不會檢索嵌入在頁面中的外部鏈接。我只需要在鏈接上進入一個級別,但是由於我想要的鏈接沒有用於目錄的index.html(即直接鏈接),事情變得更加複雜。遞歸wget抓取兩個目錄

這是我到目前爲止有:

wget -r -m -k -K -p -np -nH --cut-dirs=4 -R --adjust-extension -P games/$(date +\%Y-\%m-\%d) http://www.website.org/export/sites/admin/games/types/ http://www.website.org/export/sites/admin/games/types/

這基本上抓取的目錄和檢索的所有文件(主要是HTML文件)。它工作完美並獲取我需要的一切,除了直接鏈接到檢索內容的文件。

說它檢索85393283_poker.html - 並在該文件是一個鏈接:http://www.website.org/export/sites/admin/documents/tables/secondarytables.pdf(注意,這是不同的目錄)

嗯,這將不檢索文件。對於從第一個查詢中檢索的每個HTML文件,它都包含第二個查詢的鏈接。底線是它不會檢索第二個鏈接。

我一直在尋找所有,但似乎無法弄清楚。已嘗試單獨wget查詢,但又因爲/tables沒有html或索引,它不會抓取。

感謝任何幫助!謝謝

回答

0

原因是--no-parent選項,它阻止任何遍歷/您的當前目錄旁邊。由於第二個文件位於不同的目錄中(而不是第一個文件的子目錄),因此它不會抓取它。

你需要做的是結合-I和-X或--accept-regex/reject-regex來製作更具體的抓取。

+0

我最終弄明白了!雖然嘗試了很多嘗試和錯誤 –