2013-03-18 69 views
-2

我需要解析所有維基百科的網頁。我怎樣才能做到這一點?如何解析所有維基百科的網頁?

我可以通過它的網站地圖嗎?如果是這樣,維基百科的網站地圖在哪裏?

+2

因此,您想知道如何在未經他們許可的情況下翻譯來自維基百科的所有內容?你在問什麼? – Crontab 2013-03-18 14:37:55

+4

爲什麼要解析整個網站?維基百科提供整個數據庫作爲下載,用於鏡像等... http://en.wikipedia.org/wiki/Wikipedia:Database_download – 2013-03-18 14:39:05

+1

@Crontab他有他們的許可。所有維基百科的內容在[知識共享許可協議](http://en.wikipedia.org/wiki/Wikipedia:Copyrights)和GNU FDL – 2013-03-18 14:40:05

回答

5

與其解析所有的網頁,維基百科允許你download their database。這是首選方法,因爲它通常會更快,因爲維基百科有超過400萬篇文章。

這對維基百科來說也比較公平,並且不會讓你被侵略性爬行所阻擋。請閱讀this policy

+0

有沒有辦法只獲得所有wikipedia的意大利網頁的標題?謝謝:) – xRobot 2013-03-18 14:48:44

+0

@xRobot查看[documentation](http://www.mediawiki.org/wiki/Manual:Database_layout)。 **提示**:具體來說,請查看具有'page_title'字段的[page](http://www.mediawiki.org/wiki/Manual:Page_table)表。 – 2013-03-18 14:53:07