2017-03-23 64 views
0

我正在嘗試使用維基百科API來獲取所有頁面上的所有鏈接。目前我使用製作維基百科鏈接

https://en.wikipedia.org/w/api.php?format=json&action=query&generator=alllinks&prop=links&pllimit=max&plnamespace=0

但這似乎並沒有在最後的第一篇文章,並最終啓動。我怎樣才能得到這個產生所有頁面及其所有鏈接?

+0

https://dumps.wikimedia.org/enwiki/ – Termininja

+0

你會希望'generator = allpages',但你可能不想用它來遍歷英語維基百科全部四千萬頁。 – Tgr

回答

0

英文維基百科擁有約10.5億內部鏈接。考慮到list=alllinks模塊每個請求有500個鏈接的限制,從API獲取所有鏈接是不現實的。

相反,你可以下載Wikipedia's database dumps並使用它們。具體而言,您需要pagelinks轉儲,其中包含有關鏈接本身的信息,很可能還包含page轉儲,用於將頁面標識映射到頁面標題。