0
我想獲取維基百科上所有關於歷史事件的文章?什麼是最好的方式去做這件事? Wiki API?數據庫轉儲?我已經檢查過DBPedia,目前它似乎相當有限(雖然仍然令人印象深刻)。如何獲取維基百科上的所有歷史事件?
我想獲取維基百科上所有關於歷史事件的文章?什麼是最好的方式去做這件事? Wiki API?數據庫轉儲?我已經檢查過DBPedia,目前它似乎相當有限(雖然仍然令人印象深刻)。如何獲取維基百科上的所有歷史事件?
要查看所有關於歷史事件的文章的列表,請查看the Events category,特別是its subcategory Events by time。要獲取某個類別及其所有子類別中的所有文章,您可以使用API或SQL轉儲(至少需要表categorylinks
和page
;如果您使用.Net,my library可以幫助您)。
要真正獲得許多文章的文本,您應該使用XML轉儲,可能是pages-articles
。
從XML轉儲中提取數據的任何推薦工具? – user1530580
另外,我很好奇爲什麼要經歷事件類別,而不是歷史事件? – user1530580
@ user1530580我還沒有使用過那麼多,我認爲幾乎所有的語言都有合理的XML庫,請選擇一個。只要確保你沒有試圖一次加載整個XML到內存中。你要求事件,所以我尋找包含事件的類別。但只有你知道你到底需要什麼。 – svick