遞歸wget抓取兩個目錄

我無法讓Wget正確地跟蹤鏈接。它獲取所有必要的文件來呈現頁面，甚至包含外部鏈接，只要它們在同一個父目錄中即可。不幸的是，如果它們位於相同的域但不同的目錄中，則不會檢索嵌入在頁面中的外部鏈接。我只需要在鏈接上進入一個級別，但是由於我想要的鏈接沒有用於目錄的index.html（即直接鏈接），事情變得更加複雜。遞歸wget抓取兩個目錄

這是我到目前爲止有：

wget -r -m -k -K -p -np -nH --cut-dirs=4 -R --adjust-extension -P games/$(date +\%Y-\%m-\%d) http://www.website.org/export/sites/admin/games/types/ http://www.website.org/export/sites/admin/games/types/

這基本上抓取的目錄和檢索的所有文件（主要是HTML文件）。它工作完美並獲取我需要的一切，除了直接鏈接到檢索內容的文件。

說它檢索85393283_poker.html - 並在該文件是一個鏈接：http://www.website.org/export/sites/admin/documents/tables/secondarytables.pdf（注意，這是不同的目錄）

嗯，這將不檢索文件。對於從第一個查詢中檢索的每個HTML文件，它都包含第二個查詢的鏈接。底線是它不會檢索第二個鏈接。

我一直在尋找所有，但似乎無法弄清楚。已嘗試單獨wget查詢，但又因爲/tables沒有html或索引，它不會抓取。

感謝任何幫助！謝謝

來源

2013-08-30 Peeping Tom

原因是--no-parent選項，它阻止任何遍歷/您的當前目錄旁邊。由於第二個文件位於不同的目錄中（而不是第一個文件的子目錄），因此它不會抓取它。

你需要做的是結合-I和-X或--accept-regex/reject-regex來製作更具體的抓取。

來源

2013-09-05 15:00:15

我最終弄明白了！雖然嘗試了很多嘗試和錯誤 –

遞歸wget抓取兩個目錄

回答

相關問題