如何用wget linux命令鏡像維基百科頁面？

wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index

但我只獲得該文件的robots.txt

2016-05-04 almgwary

維基百科不喜歡這種行爲。相反，他們提供各種類型的轉儲。見[這裏]（https://dumps.wikimedia.org/）。 – gudok

Robot exclusion is on by default在wget讓鄉親被猛拉和遞歸吞併維基百科頁面通過它與其他人的網頁和他們的帶寬。

您可以在.wgetrc文件將其關閉，或者你使用wget的-e開關，如：-e robots=off

這並不是說，維基百科沒有到位進一步安全防範，以確保您的wget沒有按不會遞歸下載所有內容，但它會讓wget免於遵守robots.txt和meta。

如果您仍然碰壁，那麼可能會修改用戶代理或其他方面的內容。

2016-05-04 18:43:05 JNevill

我希望維基百科可以避免遞歸吞噬。 – Smandoli

OP將對其進行測試。我想知道在維基百科上你需要一切硬盤的大小...... – JNevill

@JNevill如果你嘗試下載所有頁面（包括頁面歷史記錄，wget會遇到！）作爲完全呈現的HTML頁面，很容易達到幾十兆兆字節。可能有數百個或更多。 – duskwuff

不要這樣做。它給維基百科Web服務器帶來了巨大的負擔，並且您的IP將被阻止。

如果您想要Wikipedia的鏡像，請從https://dumps.wikimedia.org/下載其數據庫轉儲。英文維基的最新的完整的轉儲，截至目前，可在：

如果您只需要使用特定的頁面數據，可以考慮使用the MediaWiki API。

2016-05-04 19:01:47 duskwuff

而且...爲什麼麻煩託管維基百科的頁面。你的網頁不會像現實一樣新潮。 – Yetti99

@ Yetti99取決於你想要做什麼。有很多有趣的分析，你需要直接訪問數據來執行。 – duskwuff

我只想知道如何去做，但我不會做 – almgwary

回答