2014-01-20 23 views
3

OK,所以這正是我需要的:獲得一個特定的「頁」從維基百科的XML轉儲

  • 我已經下載並提取完整的維基百科的XML轉儲(> 40GB,單獨的XML文件)
  • 我需要檢索一個特定的<page>元素(例如,條目「意大利」的頁面)

我該怎麼做? (最好有PHP代碼或一些現有的工具)

+0

@Dagon很明顯。重點是*如何*?你看,我真的很害怕處理這樣的數據量巨大的:什麼速度? (搜索,鑑於沒有排序,肯定會花費相當長的時間,否則?)另外,內存呢? (顯然不加載整個文檔到內存) –

+0

對此有何更新? – user86895

回答

0

不保證該網頁的全部內容將依次位置,修正可能是在同一個文件,甚至在不同的XML文件中的任何地方。

請使用或web API's action=export在最壞的情況Special:Export。這裏不添加鏈接,因爲輸出很大。