3
OK,所以這正是我需要的:獲得一個特定的「頁」從維基百科的XML轉儲
- 我已經下載並提取完整的維基百科的XML轉儲(> 40GB,單獨的XML文件)
- 我需要檢索一個特定的
<page>
元素(例如,條目「意大利」的頁面)
我該怎麼做? (最好有PHP代碼或一些現有的工具)
OK,所以這正是我需要的:獲得一個特定的「頁」從維基百科的XML轉儲
<page>
元素(例如,條目「意大利」的頁面)我該怎麼做? (最好有PHP代碼或一些現有的工具)
不保證該網頁的全部內容將依次位置,修正可能是在同一個文件,甚至在不同的XML文件中的任何地方。
請使用或web API's action=export在最壞的情況Special:Export。這裏不添加鏈接,因爲輸出很大。
@Dagon很明顯。重點是*如何*?你看,我真的很害怕處理這樣的數據量巨大的:什麼速度? (搜索,鑑於沒有排序,肯定會花費相當長的時間,否則?)另外,內存呢? (顯然不加載整個文檔到內存) –
對此有何更新? – user86895