0
我正在構建一個搜索引擎,並對其進行測試,它需要更多文章。他們的最佳來源是維基百科。如何提取和導入維基百科頁面?
我已經搜索了一些轉儲,但有些是XML(我有麻煩導入),有些沒有內容。
那麼,如何獲得轉儲,最好是以MySQL的形式。它必須是非英語語言。
有什麼想法?
我正在構建一個搜索引擎,並對其進行測試,它需要更多文章。他們的最佳來源是維基百科。如何提取和導入維基百科頁面?
我已經搜索了一些轉儲,但有些是XML(我有麻煩導入),有些沒有內容。
那麼,如何獲得轉儲,最好是以MySQL的形式。它必須是非英語語言。
有什麼想法?
你能舉一個內容格式的小例子嗎? – Eray 2011-01-22 22:55:17
如果你有來自維基百科的sql轉儲,你將擁有一個維基百科的克隆,你需要一個wiki軟件來獲得任何看起來像文章的東西。有apis可用,我強烈建議從api或許多可用的結構化數據選項之一導入。 – mirzu 2011-01-22 23:01:03