我想分類文本,然後將名詞映射到一個人,一個地方或一個東西。有沒有一種方法或字典來做到這一點?如何判斷名詞是人,地點還是事物?
回答
由於您正在處理分類問題,因此您可能有興趣查看AlchemyAPI,http://www.alchemyapi.com/products/features/
。你有一個免費的API密鑰,你可以嘗試的東西。
但這並不到此爲止,如果你想要做手工,因爲你可以在@tripleee答案看,共發現被提及,這也是一些有趣的事情,而現在你有API,你可以像使用Java和與WordNet交互。
更多的,你有本體論和很多是免費的,這些本體通常在OWL或RDF。您可以查詢這些本體並查找相關信息。對於OWL本體,您可以使用OWLAPI進行交互,對於RDF本體,您可以使用Apache Jena並編寫SPARQL語句。
另外,你有dbpedia,這非常有趣,我相信這可能會在很大程度上解決你的問題。 dbpedia是機器可讀格式的維基百科。例如,您可以編寫SPARQL(很像SQL語句),例如,假設我要檢查倫敦和英國之間的關係,
SELECT ?property
WHERE {
:London ?property :United_Kingdom
}
或者,假設我想所有的國家和城市,
SELECT DISTINCT ?city ?country
WHERE { ?city rdf:type dbpedia-owl:City ;
rdfs:label ?label ;
dbpedia-owl:country ?country
}
你在找什麼是subcategorization和有字典對於但是我懷疑你可以找到一個實現你的特設三向子類別的東西(甚至假設你想在「東西」子類別中包含例如「笨拙」和「性別」)。
恰當的名稱與常規名詞可能通過簡單的大寫啓發式來實現;也許像WordNet或維基詞典這樣的東西可以幫助理清地名與專名之間的人物?
您可能還希望查看詞典獲取,即通過自動或半自動方式構建您自己的子分類詞典。也許看像Brown這樣的帶標籤的語料庫,並分析人們如何出現在與地點不同的語法角色中?
我很驚訝Named Entity Recognition和Named Entity Linking還沒有被提及。聽起來這是你正在問的。下面是一個例子:假設你有以下文件
Obama flew to Japan yesterday.
認識到本文檔中的命名實體達搞清楚的是
Obama/PERSON flew to Japan/LOCATION yesterday.
鏈接這些命名實體知識庫(如維基百科或遊離鹼),您將獲得:
Obama/PERSON -> http://en.wikipedia.org/wiki/Barack_Obama
Japan/LOCATION -> http://en.wikipedia.org/wiki/Japan
有許多識別或鏈接命名實體的標準工具。一般來說,認可更容易,您可以期望獲得相當合理的開箱即用性能。當然,如果你的數據是特定領域的,你可以通過對來自同一個域的數據訓練你自己的模型來獲得更好的準確性。
- 1. 如何判斷庫是COM還是DCOM?
- 2. 如何判斷哪些unicode字符是字母(單詞)還是標點符號?
- 3. 如何判斷SQL Server是本地還是遠程?
- 4. 如何判斷字符串是URL還是本地路徑?
- 5. 如何判斷一個點是左邊還是右邊的另一點
- 6. 如何判斷contextmenu項目是用鼠標點擊還是用熱鍵點擊?
- 7. PHP如何判斷收件人是使用Outlook還是友好的日曆?
- 8. 如何判斷editText是否在焦點?
- 9. 如何判斷事件是由.click()還是由用戶觸發的?
- 10. 如何判斷用戶是新訪客還是返回? analytics.js
- 11. 如何判斷bonjour服務是無線還是藍牙?
- 12. 如何判斷我寫的程序是32位還是64位?
- 13. 如何判斷跳轉是絕對還是相對?
- 14. 如何在PHP中判斷它是數組還是散列?
- 15. 如何判斷它是對象還是數組?
- 16. 如何判斷obj是jquery還是普通javascript
- 17. 如何判斷EntityObject的屬性是主鍵還是外鍵?
- 18. 如何通過opencv判斷輪廓是線還是曲線?
- 19. 如何判斷交易是成功還是失敗?
- 20. 如何判斷我的對象的值是float還是int?
- 21. 如何判斷字符串在元值中是空還是空?
- 22. 如何判斷資源/實體是類還是實例
- 23. 如何判斷DOM元素是HTML還是SVG?
- 24. 如何判斷CmisObject是代表文件還是文件夾?
- 25. 如何判斷鼠標是單擊還是鍵盤按
- 26. 如何判斷我的YEN符號是反斜槓還是YEN?
- 27. 如何判斷javascript對象是圖片還是畫布?
- 28. 如何判斷一個標籤是網站還是圖片?
- 29. 如何判斷Android設備是手機還是手機?
- 30. 如何判斷它是碳還是可可?