2017-05-07 34 views
0

我正在進行句子分析,在此處理解句子並將信息解密爲鍵值對。 像如按含義規範化單詞

{ "product" : "milk" , "money": "200 usd" } 

{ "product" : "chair" , "cost": "200 usd" } 

{ "product" : "chair" , "price": "200 usd" } 

現在這個JSON放出來不容易使用,除非我正常化了。 我想正常化所有意味着金錢的詞語,就像金錢一樣。

{ "product" : "milk" , "money": "200 usd" } 

{ "product" : "chair" , "money": "200 usd" } 

{ "product" : "chair" , "money": "200 usd" } 

所以現在都意味着

資金,成本,價格都實際上意味着金錢。

有沒有辦法像這樣規範化? 我在nltk搜索的是stemmer和lemmatizer。但它似乎並沒有達到我的意思。有人可以指導嗎?

回答

1

您可以使用NLTK並查看WordNet synonym set中的每個關鍵字,併爲每個關鍵字輸入一個規範條目,比如第一個關鍵詞。

如果您的語料庫相當普遍,那麼這可能會有效,但是如果您期望很多技術語言,您可能必須生成自己的文字嵌入或羣集來解決此問題。

+1

好的建議。 OP可能在特定的域中工作,所以他們可能已經有了一個「規範條目」列表來定位。 – alexis