2016-03-30 114 views
1

我有很多文檔(帶有分析文本字段標題)。他們已被索引在Elasticsearch中,現在我只需要獲得術語頻率TF和逆文檔頻率IDF,該字段在標題內的每個術語沒有任何查詢。 (只是索引文件和檢索該領域中所有術語的倒排索引標題在Elasticsearch中獲取索引文檔的倒排索引

Elasticsearch有可能嗎?

回答

1

我寫了一個tutorial關於如何從ES獲取術語文檔矩陣。這包括獲得TF但不包括IDF。這是用於使用Python的ES 1.6.0。

欲瞭解更多,你應該看看TermVector API

+0

謝謝@Animesh Pandey,那麼令牌呢?我在字段*標題*上應用了分析器,我可以輕鬆獲得每個文檔的結果標記嗎? –

+0

我也在尋找這個。你現在有什麼信息嗎? – osager

+0

或者你可以使用:_termvectors來獲得TF – mel

0
GET /YOUR_INDEX/YOUR_DOC_TYPE/YOUR_ID/_termvectors 
{ 
    "fields" : ["YOUR_FIELD"], 
    "term_statistics" : true, 
    "field_statistics" : true 
} 

這將爲您的文檔中的每個單詞獲得TF。