我正在爲我的大學項目下載完整的維基百科文本。我是否必須編寫自己的蜘蛛來下載這個文件,或者網上有維基百科的公開數據集嗎?維基百科文本下載
爲了給大家介紹一下我的項目,我想了解一些我感興趣的文章的有趣詞彙。但是爲了找到這些有趣的詞,我打算使用tf/idf來計算詞頻每個單詞並挑選出高頻率的單詞。但要計算tf,我需要知道整個維基百科的總髮生率。
這怎麼辦?
我正在爲我的大學項目下載完整的維基百科文本。我是否必須編寫自己的蜘蛛來下載這個文件,或者網上有維基百科的公開數據集嗎?維基百科文本下載
爲了給大家介紹一下我的項目,我想了解一些我感興趣的文章的有趣詞彙。但是爲了找到這些有趣的詞,我打算使用tf/idf來計算詞頻每個單詞並挑選出高頻率的單詞。但要計算tf,我需要知道整個維基百科的總髮生率。
這怎麼辦?
從維基百科:http://en.wikipedia.org/wiki/Wikipedia_database
維基百科提供了所有可用的內容感興趣的用戶的免費副本。這些數據庫可用於鏡像,個人使用,非正式備份,脫機使用或數據庫查詢(如維基百科:維護)。所有文本內容均在Creative Commons Attribution-ShareAlike 3.0許可證(CC-BY-SA)和GNU自由文檔許可證(GFDL)下進行多重許可。圖片和其他文件可以按照不同的條款提供,詳情請參閱其說明頁面。有關遵守這些許可證的建議,請參閱維基百科:版權。
看起來你也很幸運。從轉儲部分:
截至2010年3月12日,英文版的維基百科可以在http://download.wikimedia.org/enwiki/20100130/發現這是自2008年以來 已經創建了英語維基百科的第一個完整的轉儲的最新完整轉儲請注意,最近的轉儲(例如20100312轉儲)不完整。
所以數據只有9天:)
考慮到轉儲的大小,你可能會得到更好的使用英語的詞頻服務,或者使用MediaWiki API隨機輪詢頁面(或諮詢最多的頁面)。有框架可以基於這個API(Ruby,C#,...)來構建機器人,它可以幫助你。
如果你需要一個純文本格式,而不是一個Mediawiki的XML,那麼你可以在這裏下載: http://kopiwiki.dsd.sztaki.hu/
雖然我已經回答了你的問題,簡單地指出,谷歌有你的答案是不可取的,如果你使用'下載完整的維基百科文字'的鏈接是第一次打。我這樣說,希望它能幫助你改進你的google-fu。 – 2010-04-21 14:04:57
@Sams Holder只想確認。這是下載所有頁面的正確鏈接-http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean 2010-04-21 14:27:22
是的,這似乎是所有當前網頁,可能是什麼你想,雖然不知道確切難以說肯定 – 2010-04-21 16:50:17