如何獲得所有維基百科文章標題在一個地方沒有額外的字符和pageids。只是文章的標題。事情是這樣的:如何獲取所有維基百科文章標題?
當我下載維基百科轉儲,我得到this
也許我知道這可能讓我所有的頁面的運動,但我希望得到所有頁面在一個起飛。
如何獲得所有維基百科文章標題在一個地方沒有額外的字符和pageids。只是文章的標題。事情是這樣的:如何獲取所有維基百科文章標題?
當我下載維基百科轉儲,我得到this
也許我知道這可能讓我所有的頁面的運動,但我希望得到所有頁面在一個起飛。
的數據庫轉儲here(69 MB)你會發現它https://dumps.wikimedia.org
在主命名空間最新列表頁面標題爲英文維基百科。
如果你更希望通過API你同時使用query
和list=allpages
,但只給你最大的500(5K的機器人),所以你將不得不作出的英文維基百科超過10所000的API調用。
例子:https://en.wikipedia.org/w/api.php?action=query&format=xml&list=allpages&aplimit=max
我只想要文章的標題。你想讓我告訴你我想要什麼嗎? – user6779864
從數據庫轉儲你只需要選擇標題列,你將有一個普通的列表。 – Ainali
@Ainali你會告訴我一張照片嗎? – user6779864
你有什麼現在做了什麼?我不會低估你的問題,但如果你沒有正確地問它,這裏會有很多人。 –
我建議你閱讀這個:http://stackoverflow.com/help/how-to-ask –
我讀過,但我沒有看到我想要的。 – user6779864