2017-08-22 111 views
1

我想標記來自Elastic的特定實體。這是否支持? 例如對於文本:ElasticSearch中的實體標記

Hello my name is Johnny

要將其附於令牌 Hello my name is johnny < person

後來又突出那些實體? 有誰知道這樣的事情或插件或任何方向的點將有所幫助。

回答

2

Elasticsearch不做命名實體識別。不過,你可以使用一個攝取處理器,類似於這個https://github.com/spinscale/elasticsearch-ingest-opennlp(儘管你可能不得不爲你的確切用例修改它)。

但是,在爲文檔建立索引之前,您可能更願意進行命名實體識別。你可以嘗試openNLP或NLTK,或者如果它是一個非商業項目,斯坦福大學NER。我想你想在索引之前自己添加「高亮」標籤。我想的是這樣的:

<ne type="person">Johnny</ne> is from <ne type="place">New York</ne>

您可以使用自定義分析器丟棄分析的標籤,或者乾脆指數兩個領域,一個沒有標籤。

+0

是的,我想到了這一點。感謝分析師建議放棄標籤。我的替代方案是組成一個不太可能被搜索到的標籤。 – aclokay

1

詞性標註

如果你的意思是部分詞性標註Elasticsearch不支持它。

你應該自己做,例如使用NLTK,然後索引你的文件標記。

亮點

關於突出是elasticsearch支持它,這裏是文檔:

Higlight

+0

我不是指POS標記,但類似的東西......感謝您的答案 – aclokay