Q

獲得一個特定的「頁」從維基百科的XML轉儲

2014-01-20 23 views 3 likes

3

OK，所以這正是我需要的：獲得一個特定的「頁」從維基百科的XML轉儲

我已經下載並提取完整的維基百科的XML轉儲（> 40GB，單獨的XML文件）
我需要檢索一個特定的<page>元素（例如，條目「意大利」的頁面）

我該怎麼做？（最好有PHP代碼或一些現有的工具）

2014-01-20 Dr.Kameleon

+0

@Dagon很明顯。重點是*如何*？你看，我真的很害怕處理這樣的數據量巨大的：什麼速度？（搜索，鑑於沒有排序，肯定會花費相當長的時間，否則？）另外，內存呢？（顯然不加載整個文檔到內存） –

+0

對此有何更新？ – user86895

A

回答

0

不保證該網頁的全部內容將依次位置，修正可能是在同一個文件，甚至在不同的XML文件中的任何地方。

請使用或web API's action=export在最壞的情況Special:Export。這裏不添加鏈接，因爲輸出很大。

2015-04-27 23:22:47 Nemo

相關問題