我無法讓Wget正確地跟蹤鏈接。它獲取所有必要的文件來呈現頁面,甚至包含外部鏈接,只要它們在同一個父目錄中即可。不幸的是,如果它們位於相同的域但不同的目錄中,則不會檢索嵌入在頁面中的外部鏈接。我只需要在鏈接上進入一個級別,但是由於我想要的鏈接沒有用於目錄的index.html(即直接鏈接),事情變得更加複雜。遞歸wget抓取兩個目錄
這是我到目前爲止有:
wget -r -m -k -K -p -np -nH --cut-dirs=4 -R --adjust-extension -P games/$(date +\%Y-\%m-\%d) http://www.website.org/export/sites/admin/games/types/ http://www.website.org/export/sites/admin/games/types/
這基本上抓取的目錄和檢索的所有文件(主要是HTML文件)。它工作完美並獲取我需要的一切,除了直接鏈接到檢索內容的文件。
說它檢索85393283_poker.html
- 並在該文件是一個鏈接:http://www.website.org/export/sites/admin/documents/tables/secondarytables.pdf
(注意,這是不同的目錄)
嗯,這將不檢索文件。對於從第一個查詢中檢索的每個HTML文件,它都包含第二個查詢的鏈接。底線是它不會檢索第二個鏈接。
我一直在尋找所有,但似乎無法弄清楚。已嘗試單獨wget
查詢,但又因爲/tables
沒有html或索引,它不會抓取。
感謝任何幫助!謝謝
我最終弄明白了!雖然嘗試了很多嘗試和錯誤 –