2014-04-29 40 views

回答

2

由於您正在處理分類問題,因此您可能有興趣查看AlchemyAPI,http://www.alchemyapi.com/products/features/。你有一個免費的API密鑰,你可以嘗試的東西。

但這並不到此爲止,如果你想要做手工,因爲你可以在@tripleee答案看,共發現被提及,這也是一些有趣的事情,而現在你有API,你可以像使用Java和與WordNet交互。

更多的,你有本體論和很多是免費的,這些本體通常在OWL或RDF。您可以查詢這些本體並查找相關信息。對於OWL本體,您可以使用OWLAPI進行交互,對於RDF本體,您可以使用Apache Jena並編寫SPARQL語句。

另外,你有dbpedia,這非常有趣,我相信這可能會在很大程度上解決你的問題。 dbpedia是機器可讀格式的維基百科。例如,您可以編寫SPARQL(很像SQL語句),例如,假設我要檢查倫敦和英國之間的關係,

SELECT ?property 
WHERE { 
:London ?property :United_Kingdom 
} 

或者,假設我想所有的國家和城市,

SELECT DISTINCT ?city ?country 
WHERE { ?city rdf:type dbpedia-owl:City ; 
rdfs:label ?label ; 
dbpedia-owl:country ?country 
} 
0

你在找什麼是subcategorization和有字典對於但是我懷疑你可以找到一個實現你的特設三向子類別的東西(甚至假設你想在「東西」子類別中包含例如「笨拙」和「性別」)。

恰當的名稱與常規名詞可能通過簡單的大寫啓發式來實現;也許像WordNet或維基詞典這樣的東西可以幫助理清地名與專名之間的人物?

您可能還希望查看詞典獲取,即通過自動或半自動方式構建您自己的子分類詞典。也許看像Brown這樣的帶標籤的語料庫,並分析人們如何出現在與地點不同的語法角色中?

2

我很驚訝Named Entity RecognitionNamed Entity Linking還沒有被提及。聽起來這是你正在問的。下面是一個例子:假設你有以下文件

Obama flew to Japan yesterday. 

認識到本文檔中的命名實體達搞清楚的是

Obama/PERSON flew to Japan/LOCATION yesterday. 

鏈接這些命名實體知識庫(如維基百科或遊離鹼),您將獲得:

Obama/PERSON -> http://en.wikipedia.org/wiki/Barack_Obama 
Japan/LOCATION -> http://en.wikipedia.org/wiki/Japan 

有許多識別或鏈接命名實體的標準工具。一般來說,認可更容易,您可以期望獲得相當合理的開箱即用性能。當然,如果你的數據是特定領域的,你可以通過對來自同一個域的數據訓練你自己的模型來獲得更好的準確性。

相關問題