我正在努力使用Nodejs將HTML文件編入索引。然而,即使在使用Nodejs之前,我試圖運行下面的手動索引,這似乎不工作。我錯過了什麼?在索引到elasticsearch之前去除HTML標籤
指數樣本HTML標籤使用html_strip過濾器:
curl -XPOST 'localhost:9200/bhs/articles/_analyzer?tokenizer=standard&char_filters=html_strip' -d '
{
"content" : "<title>Dilip Kumar</title>"
}'
搜索得到的所有文件:
http://localhost:9200/bhs/articles/_search
它提供了以下的結果:
{
"took": 4,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 1,
"max_score": 1,
"hits": [
{
"_index": "bhs",
"_type": "articles",
"_id": "AUt2TGl9aadd5iLJ3mue",
"_score": 1,
"_source": {
"content": "<title>Dilip Kumar</title>"
}
}
]
}
}
理想情況下,不應該指數標籤,因爲我已經使用html_filter去除標籤。
我期待在上下文elasticsearch。不是JavaScript。 – joy 2015-02-11 02:04:44
我看到
什麼是您的文章類型的映射 - 你告訴它使用自定義分析器? – 2015-02-11 17:31:05