2017-05-07 63 views
1

有沒有辦法從維基百科獲取所有標題/摘錄對?到目前爲止,我找到了兩種方法:批量從維基百科獲取摘錄

  • 下載摘錄轉儲,但它包含不完整/無效的摘錄作爲文章的第一行我想。使用鏈接到MediaWiki API
  • 請求摘錄,但它是extremelly緩慢的,因爲你只能每次請求獲得單摘錄(批量查詢不工作的摘錄):

/w/api.php?action=查詢&格式= JSON &標題=主營 &頁面重定向&道具=提取& explaintext = & exintro =

我想由於MediaWiki API不會增加維基百科服務器的負擔,因此可以摘錄它們。 這可能嗎?

P.S.我需要作爲純文本的摘錄。沒有wiki文本或格式要求。

更新。有可能通過鏈接到MediaWiki API來獲取20個摘錄最大的一次:

https://en.wikipedia.org/w/api.php?action=help&modules=query%2Bextracts

& exlimit = 20

+0

下載最後一個[數據庫快照](https://en.wikipedia.org/wiki/Wikipedia:Database_download)。 –

回答