2012-03-18 66 views
1

我寫一個用戶應用程序,獲取用戶爲當前打開的維基百科頁面輸入。我寫了一段代碼,將其作爲模塊的輸入,並使用網頁瀏覽和自然語言處理生成與該特定文章相關的關鍵字列表。如何從當前維基百科文章中獲取相關主題?

我想通過提供除了我已識別的關鍵字之外的一組相關主題來擴展應用的功能,這些主題可能是用戶感興趣的。維基百科提供的任何API都可以做到這一點。如果沒有,任何人都可以指出我應該看什麼(因爲我必須從頭開始編寫代碼)。此外,我將欣賞任何指示任何算法,將訓練機器識別主題地圖的指針。我尋求任何紙張而是一些基本的東西

這樣總結實際的實施,

  1. 我需要的方式找話題在維基百科上有關當前文章(類別也會做)
  2. 我也會理解的樣本算法訓練機器識別,通常是相關的,聚集的話題。

PS。請具體說明,因爲我已經通過一些 欣賞它明顯的可能性研究謝謝

+0

如果您想獲得某篇文章的分類,那麼,是的,這些都可以通過[API](http://www.mediawiki.org/wiki/API:Main_page)獲得。 – svick 2012-03-18 18:21:48

+0

我已經納入,但我想要更多類似於當前文章的文章名稱。在類別中,如果我只是得到相關的類別,那也可以。 – 2012-03-19 04:12:03

回答

0

你能湊夠的類別,如果你想。如果你正在使用python,你可以直接從他們的API讀取wiki文本,並使用mwlib解析文章並找到鏈接。

更有趣但更難實施的方法是創建相關術語的聚類,並給出從文章中提取的術語列表,找到與它們最接近的術語。

0

「又見」是一款經常出現在維基百科頁面。 它下面結構類似的例子,從[條(出版)]:

==See also== 
* [[Article directory]] 
* [[Electronic article]] 

然後,您應該解析wikicode(你可以採取通過轉儲或MediaWiki的API,如前面的回答暗示),並使用上述文章。

另一種方法是直接使用維基百科類,there are APIs for that

相關問題