我想用鏡像wget的Linux命令 我用這個命令如何用wget linux命令鏡像維基百科頁面?
wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index
但我只獲得該文件 的robots.txt
我想用鏡像wget的Linux命令 我用這個命令如何用wget linux命令鏡像維基百科頁面?
wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index
但我只獲得該文件 的robots.txt
Robot exclusion is on by default在wget
讓鄉親被猛拉和遞歸吞併維基百科頁面通過它與其他人的網頁和他們的帶寬。
您可以在.wgetrc
文件將其關閉,或者你使用wget的-e
開關,如:-e robots=off
這並不是說,維基百科沒有到位進一步安全防範,以確保您的wget沒有按不會遞歸下載所有內容,但它會讓wget免於遵守robots.txt和meta。
如果您仍然碰壁,那麼可能會修改用戶代理或其他方面的內容。
不要這樣做。它給維基百科Web服務器帶來了巨大的負擔,並且您的IP將被阻止。
如果您想要Wikipedia的鏡像,請從https://dumps.wikimedia.org/下載其數據庫轉儲。英文維基的最新的完整的轉儲,截至目前,可在:
https://dumps.wikimedia.org/enwiki/20160407/
如果您只需要使用特定的頁面數據,可以考慮使用the MediaWiki API。
維基百科不喜歡這種行爲。相反,他們提供各種類型的轉儲。見[這裏](https://dumps.wikimedia.org/)。 – gudok