我有這個網絡應用程序,用戶(主要是英語學習者或兒童)可以搜索我的數據庫中的一些現有許可文章。他們可以通過類別,標籤進行過濾,每個人都有多難。如何下載維基百科文章和存儲在數據庫中
因此,我正在考慮將維基百科中的文章添加到數據庫,並且能夠在一段時間內更新數據庫中的文章,但我不確定最佳方法是什麼。我的理解是,我需要每次都下載壓縮文件,然後解壓縮它們,以便我以XML格式獲取文章。然後我可以根據標籤將它們添加到數據庫中?有沒有一種方法可以讓它自動更新?我閱讀文章,但在數據轉儲,但不知道如何開始。
http://en.wikipedia.org/wiki/Wikipedia:Database_download#SQL_schema
你首先需要一個用戶帳戶,只是櫃面你沒有知道;)。其次,您需要訪問其API Web服務,此時您需要處理通過該調用返回的XML結果。 – GoldBishop
@GoldBishop即使沒有帳戶,您也可以使用維基百科的API,以防萬一您不知道。 Ruby提到的轉儲與API無關。 – svick
@svick沒有帳戶,你不必獲得授權Cookie?通過您的帳戶,您只需將您的唯一帳戶ID與另一個驗證字符串一起傳遞,您就可以在桌面上完成所有操作。 – GoldBishop