有一個巨大的CSV/XML或任何文件的地方,包含英語動詞及其變體的列表(例如銷售 - >出售,銷售,銷售,銷售商,sellee )?列表等
我想這將是NLP系統是有用的,但似乎沒有成爲一個上市的任何地方,也可能是我的可怕的谷歌搜索技巧。有人有其他線索嗎?
有一個巨大的CSV/XML或任何文件的地方,包含英語動詞及其變體的列表(例如銷售 - >出售,銷售,銷售,銷售商,sellee )?列表等
我想這將是NLP系統是有用的,但似乎沒有成爲一個上市的任何地方,也可能是我的可怕的谷歌搜索技巧。有人有其他線索嗎?
考慮Catvar:
甲語類-變化數據庫(或Catvar)是未發生屈折詞的聚類的一個數據庫(詞位)和它們的範疇(即部分的語音)的變體。例如,飢餓(V),飢餓(N),飢餓(AJ)和飢餓(N)這兩個詞是描述飢餓狀態的一些基本概念的不同英語變體。另一個例子是開發集羣:(開發(V),開發者(N),開發(AJ),開發(N),開發(AJ),開發(N))。
我不知道你在找什麼,但我認爲WordNet
- 對英語詞彙數據庫 - 將是一個良好的開端。更多詳情http://wordnet.princeton.edu/
我稱你的鏈接說,
共發現的結構,使其成爲計算語言學和自然語言處理的有用工具。
考慮獲取wiktionary的轉儲並從中提取此信息。
http://en.wiktionary.org/wiki/sell提到了許多形式的詞(銷售,銷售,出售)。
如果你的目標僅僅是正常化的話一些基本的規範形式,使用lemmatizer或詞幹考慮。嘗試玩morpha這是一個非常好的英語lemmatizer。
CatVar似乎沒有可用了,該鏈接斷開。你知道我還能找到它嗎? – Ogaday
您可以嘗試發送電子郵件給論文的作者,要求提供正式版本。我在Github上找到了非官方的副本(https://github.com/bolei/trigram-classifier/tree/master/src/main/resources/script/catvar21)。 –