2010-04-16 81 views

回答

14

結帳this page here on Wikipedia - 有一個選項可以下載帶有文章名稱的存檔。這裏的actual path to the download page

  • All Titles(gzip壓縮) - 32+ MB在發佈的時間。

編輯:

您可能會注意到出現在列表中的非英文標題(和一些褻瀆 - 被告知)包含在enwiki-latest-all-titles-in-ns0.gz。這是因爲默認情況下,大多數人在主英文wiki上創建內容(語言代碼en)。如果您要調查其他語言轉儲,您會發現有不同的文章集。

the main download page閱讀,有參考能夠使用維基百科API執行某些類型的查詢在維基百科,但我不知道這將解決您的問題(頁分類似乎並沒有提供一種區分「英文」內容與「英文維基上的內容」的簡單方法)。

+0

這只是英文文章 - 如果您希望能夠找到其他語言的文章標題(和摘要/內容),請使用第一個鏈接。 – 2010-04-16 20:50:11

+0

非常感謝@AJ – Boolean 2010-04-16 23:10:49

+0

我注意到標題實際上包含其他語言。有沒有辦法只獲得英文標題? – Boolean 2010-04-17 02:15:43

0

我不知道任何文章的中心列表,但如果你只需要大量的文章而不是完整的列表(記住任何完整列表總是會過時),那麼你可以可能把一些東西放在一起wget從主頁面遞歸地跟隨wikipedia中的鏈接並存儲你得到的URL。

+0

如果你真的想採取這種方法,你可以通過像索引[按字母順序排列](http://en.wikipedia.org/wiki/Wikipedia:Quick_index) – 2010-04-16 20:52:27

+1

請注意,然而,請注意,維基百科具體詢問如果你必須採取這種方法(這不應該是必須的),你可以限制頁面訪問的速度以避免服務器負載過重。 – 2010-04-18 14:45:58

相關問題