2012-05-11 45 views
2

我遇到以下問題。我需要鏡像密碼保護的網站。聽起來簡單的任務:如何在使用wget鏡像網站時跳過選定的網址

wget -m -k -K -E --cookies=on --keep-session-cookies --load-cookies=myCookies.txt http://mysite.com 

在myCookies.txt我保持適當的會話cookie。直到wget出現在註銷頁面之前,這一行爲纔會生效 - 然後會話失效,實際上,進一步的鏡像無效。

W¯¯試圖添加--reject選擇,但它僅與文件類型的作品 - 我能只阻止HTML文件下載或SWF文件下載,我不能說

--reject http://mysite.com/*.php?type=Logout* 

任何想法如何跳過某些URL在wget中?也許有其他工具可以完成這項工作(必須在MS Windows上工作)。

回答

4

如果你第一下載(甚至只是touch)的註銷頁面,然後

wget --no-clobber --your-original-arguments 

這應該跳過登出頁面,因爲它已經被下載

(免責聲明:我自己沒有嘗試過)

+0

+1;我做了'touch page.php?type = Logout',然後'wget --no-clobber http://tkos.co.il/page.php?type = Logout'並得到了'File'page.php?type = Logout ' 已經在那了;沒有檢索到。' –

+0

用HTTrack實現同樣的功能非常簡單:httrack.exe http://mysite.com --mirror --cookies = 1 - *註銷*假設cookie位於cookies.txt文件中 –