我知道我可以完全下載維基百科。但我想知道是否有任何方法可以按類別下載它?他們有Special Export頁面,但是編寫一個類別(例如Culture)添加了兒童頁面和另外一些類別,因此試圖獲取Culture中的所有頁面將會「永遠」,因爲當您提交另一個文化類別時,向上。你們知道有其他方式可以按類別出口嗎? (以一種簡單的方式)按類別導出維基百科選項?
回答
我不認爲有任何其他簡單的方法來做到這一點。
我覺得你最好的選擇是下載所有文章的轉儲文件(pages-articles
,目前7.5 GB的英文維基百科)和按類別,篩選他們可能使用類成員轉儲(categorylinks
,1 GB)。
另一個選擇是做類似於你將要做的事使用特殊:手動導出,但使用the API自動執行它。
使用MediaWiki API,您可以通過使用list=categorymembers
作爲generator爲prop=revisions
查詢得到一個類別中的所有頁面的wikitext的,就像這樣:
這個例子鏈接給維基百科的Category:Culture前10條的內容。您可以添加gcmlimit=max
參數以獲取更多頁面,但對於大型類別,您需要正確處理query continuations(或使用可爲您處理它們的MediaWiki API client)。
(然而,這個查詢將不會顯示在子類分類的頁:文化如果你想這些呢,你可以使用一個簡單的查詢categorymembers
沒有在一個類別頁面和子類別列表cmnamespace
並通過搜索結果收集文章標題的出口列表,如果你這樣做,小心不要被任何類別循環夾住,並且最好在出口頁面之前對結果進行一次健全性檢查,這很容易得到的方式更多的頁面比你預期從一個完整的子類別遍歷。)
我已經下載了Wikipedia頁面,類別和類別鏈接。我現在把它們全部放在數據庫中。 :) – Andrew 2012-02-03 16:31:14
- 1. 忽略維基百科維護類別
- 2. 維基百科頁面的子類別
- 3. 獲取維基百科的父類別
- 4. 用Python導出維基百科
- 5. 解析維基百科類
- 6. 如何使用維基百科API從維基百科上的類別頁面獲取所有子類別?
- 7. 維基百科API
- 8. 維基百科的別名提取
- 9. 從維基百科獲取維基百科主題標題
- 10. 導入維基百科轉儲到MySql
- 11. 維基百科彩虹表項
- 12. 維基百科出口API版本
- 13. 從維基百科給出的網址
- 14. 解析出維基百科的IPAc
- 15. 獲取維基百科分類鏈接
- 16. API爲維基百科的
- 17. wikitools,維基百科和python
- 18. 腳本從維基百科
- 19. 尋找從維基百科
- 20. 維基百科與Python
- 21. 解析XML維基百科
- 22. 維基百科人物API
- 23. 維基百科第一段
- 24. 提取維基百科
- 25. 維基百科web框架?
- 26. 維基百科的JAVA API
- 27. 維基百科解析器
- 28. 訪問維基百科webservices
- 29. lucene維基百科查詢
- 30. 迭代維基百科
你可能會想嘗試這個PHP腳本:https://github.com/produnis/myscripts/blob/master/PHP/mwc2pdf.php – Produnis 2015-03-16 20:41:42