2016-05-04 33 views
0

我想用鏡像wget的Linux命令 我用這個命令如何用wget linux命令鏡像維基百科頁面?

wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index 

但我只獲得該文件 的robots.txt

+0

維基百科不喜歡這種行爲。相反,他們提供各種類型的轉儲。見[這裏](https://dumps.wikimedia.org/)。 – gudok

回答

1

Robot exclusion is on by defaultwget讓鄉親被猛拉和遞歸吞併維基百科頁面通過它與其他人的網頁和他們的帶寬。

您可以在.wgetrc文件將其關閉,或者你使用wget的-e開關,如:-e robots=off

這並不是說,維基百科沒有到位進一步安全防範,以確保您的wget沒有按不會遞歸下載所有內容,但它會讓wget免於遵守robots.txt和meta。

如果您仍然碰壁,那麼可能會修改用戶代理或其他方面的內容。

+0

我希望維基百科可以避免遞歸吞噬。 – Smandoli

+0

OP將對其進行測試。我想知道在維基百科上你需要一切硬盤的大小...... – JNevill

+0

@JNevill如果你嘗試下載所有頁面(包括頁面歷史記錄,wget會遇到!)作爲完全呈現的HTML頁面,很容易達到幾十兆兆字節。可能有數百個或更多。 – duskwuff

3

不要這樣做。它給維基百科Web服務器帶來了巨大的負擔,並且您的IP將被阻止。

如果您想要Wikipedia的鏡像,請從https://dumps.wikimedia.org/下載其數據庫轉儲。英文維基的最新的完整的轉儲,截至目前,可在:

https://dumps.wikimedia.org/enwiki/20160407/

如果您只需要使用特定的頁面數據,可以考慮使用the MediaWiki API

+0

而且...爲什麼麻煩託管維基百科的頁面。你的網頁不會像現實一樣新潮。 – Yetti99

+1

@ Yetti99取決於你想要做什麼。有很多有趣的分析,你需要直接訪問數據來執行。 – duskwuff

+0

我只想知道如何去做,但我不會做 – almgwary

相關問題