2
尋求幫助,以作出明確的決定。 幾個月來,我正在尋找一個Java API,它可以幫助我訪問Wikipedia並獲取文章的內容。我的項目是建立一個給定域的概念分類。 詳細信息:NLP使用維基百科(java編程)
- 我有一個域文本語料庫,我提取第一組術語(表示域)。
- 我在維基百科搜索這些詞的文章,以提取他們的定義。這個詞的定義幫助我找到這個詞的同義詞。維基百科的調用肯定會在Java循環中完成。
- 我搜索上一步中找到的超名稱的定義以找到它們的超名稱,等等。
- 我畫了一個圖表,將單詞連接到它們的超名稱。
我的問題是,對於第2步,我無法做出明確的決定。
- 我寫了Java代碼在線訪問維基百科。它成功了,但我的聯繫速度決定了執行成功還是失敗給出一組例外。有時,執行只給我2或3篇文章。
- 我嘗試使用JWPL處理維基百科轉儲。我失敗了,因爲我沒有足夠的內存。我現在在一組Java API之間猶豫不決。
如果您已經在這方面做了某些事情,請給我您的觀點。我做了認真的調查,我發現下面的鏈接:
- http://wdm.cs.waikato.ac.nz:8080/wiki/Wiki.jsp?page=Installing%20the%20Java%20API
- http://jwikiapi.sourceforge.net/index.html
- http://code.google.com/p/gwtwiki/
- http://www.mediawiki.org/wiki/API%3aMain_page
- http://jwbf.sourceforge.net/
我會很感激的任何建議。
你能否給出一個關於你在步驟2中提取的「定義」的正式描述? –
該定義正式是維基百科文章的第一句。例如,對於「鑽機」一詞,我需要提取以下明文:「鑽機是一種在地面上創建孔(通常稱爲鑽孔)或豎井的機器。」 – Lida
正在使用DBpedia無問題嗎? http://dbpedia.org –