我正在做一個項目,爲此我需要知道所有維基百科文章的名稱(我不需要這些內容)。有沒有可以下載這些數據的地方?維基百科文章名稱(無內容)
回答
結帳this page here on Wikipedia - 有一個選項可以下載帶有文章名稱的存檔。這裏的actual path to the download page:
- All Titles(gzip壓縮) - 32+ MB在發佈的時間。
編輯:
您可能會注意到出現在列表中的非英文標題(和一些褻瀆 - 被告知)包含在enwiki-latest-all-titles-in-ns0.gz
。這是因爲默認情況下,大多數人在主英文wiki上創建內容(語言代碼en
)。如果您要調查其他語言轉儲,您會發現有不同的文章集。
在the main download page閱讀,有參考能夠使用維基百科API執行某些類型的查詢在維基百科,但我不知道這將解決您的問題(頁分類似乎並沒有提供一種區分「英文」內容與「英文維基上的內容」的簡單方法)。
我不知道任何文章的中心列表,但如果你只需要大量的文章而不是完整的列表(記住任何完整列表總是會過時),那麼你可以可能把一些東西放在一起wget從主頁面遞歸地跟隨wikipedia中的鏈接並存儲你得到的URL。
如果你真的想採取這種方法,你可以通過像索引[按字母順序排列](http://en.wikipedia.org/wiki/Wikipedia:Quick_index) – 2010-04-16 20:52:27
請注意,然而,請注意,維基百科具體詢問如果你必須採取這種方法(這不應該是必須的),你可以限制頁面訪問的速度以避免服務器負載過重。 – 2010-04-18 14:45:58
- 1. PHP +維基百科:從維基百科文章的第一段獲取內容?
- 2. 獲取維基百科文章的內容
- 3. 獲得維基百科文章概要
- 4. 隱藏維基百科文章反饋
- 5. 總結維基百科文章
- 6. 從維基百科中提取內容
- 7. 維基百科信息框的內容
- 8. 維基百科的文章頻率文章
- 9. 從維基百科文章中刪除我的名字
- 10. 維基百科API
- 11. android:從維基百科文章顯示標題和文本
- 12. jsoup - 從維基百科文章中提取文本
- 13. 什麼是用來當我讀到關於維基百科幾何/圖形文章,以創建維基百科
- 14. 如何使用維基百科API獲取維基百科文章信息框中的信息?
- 15. 從維基百科獲取維基百科主題標題
- 16. 獲取維基百科文章的當前狀態?
- 17. 如何從維基百科獲取文章修訂歷史
- 18. 使用維基百科API查找文章的主要類別
- 19. 獲取今日特色文章與維基百科API?
- 20. 如何獲得維基百科長篇文章的列表?
- 21. 尋找維基百科文章之間的shotest路徑
- 22. 從維基百科文章(Python)中提取第一段
- 23. iframe維基百科的文章沒有包裝
- 24. 如何將維基百科文章轉換爲RSS源項目
- 25. 爲維基百科文章提供的人員的MQL
- 26. 如何獲取所有維基百科文章標題?
- 27. 提取和解析維基百科文章
- 28. 如何在維基百科檢查頁面是否爲文章?
- 29. 從維基百科獲取文章XML轉儲 - 通過標題
- 30. 讓所有的維基百科文章與精確的時間
這只是英文文章 - 如果您希望能夠找到其他語言的文章標題(和摘要/內容),請使用第一個鏈接。 – 2010-04-16 20:50:11
非常感謝@AJ – Boolean 2010-04-16 23:10:49
我注意到標題實際上包含其他語言。有沒有辦法只獲得英文標題? – Boolean 2010-04-17 02:15:43