我有很多文檔(帶有分析文本字段標題)。他們已被索引在Elasticsearch中,現在我只需要獲得術語頻率TF和逆文檔頻率IDF,該字段在標題內的每個術語沒有任何查詢。 (只是索引文件和檢索該領域中所有術語的倒排索引標題)在Elasticsearch中獲取索引文檔的倒排索引
Elasticsearch有可能嗎?
我有很多文檔(帶有分析文本字段標題)。他們已被索引在Elasticsearch中,現在我只需要獲得術語頻率TF和逆文檔頻率IDF,該字段在標題內的每個術語沒有任何查詢。 (只是索引文件和檢索該領域中所有術語的倒排索引標題)在Elasticsearch中獲取索引文檔的倒排索引
Elasticsearch有可能嗎?
我寫了一個tutorial關於如何從ES獲取術語文檔矩陣。這包括獲得TF但不包括IDF。這是用於使用Python的ES 1.6.0。
欲瞭解更多,你應該看看TermVector API。
不,你可能會找到一種方法來一起破解它。並且在每個查詢的基礎上,您可以使用EXPLAIN api,例如https://www.elastic.co/guide/en/elasticsearch/reference/2.3/search-explain.html但是沒有API返回此信息。
GET /YOUR_INDEX/YOUR_DOC_TYPE/YOUR_ID/_termvectors
{
"fields" : ["YOUR_FIELD"],
"term_statistics" : true,
"field_statistics" : true
}
這將爲您的文檔中的每個單詞獲得TF。
謝謝@Animesh Pandey,那麼令牌呢?我在字段*標題*上應用了分析器,我可以輕鬆獲得每個文檔的結果標記嗎? –
我也在尋找這個。你現在有什麼信息嗎? – osager
或者你可以使用:_termvectors來獲得TF – mel