0
我正在測試ElasticSearch的一些自定義過濾器,因爲我很迷戀,所以我決定測試標準的html_strip字符過濾器,以確認我知道它是如何工作的。ElasticSearch中的html_strip字符過濾器用換行符替換標籤?
如此看來,我不知道它是如何工作的,因爲我認爲它會去除所有的HTML,並沒有取代它,但它似乎對不同的標籤,例如做不同的事情P(與格)標籤與換行符替換:
curl -XGET 'http://localhost:9200/test-analysis/_analyze?tokenizer=keyword&char_filters=html_strip&pretty=1' -d 'Oh <p class="stuff">pickles</p>!'
{
"tokens" : [ {
"token" : "Oh \npickles\n!",
"start_offset" : 0,
"end_offset" : 32,
"type" : "word",
"position" : 1
} ]
}
強勁的標籤和鏈接用什麼代替:
curl -XGET 'http://localhost:9200/test-analysis/_analyze?tokenizer=keyword&char_filters=html_strip&pretty=1' -d 'Oh <a href="stuff">pickles</a>!'
{
"tokens" : [ {
"token" : "Oh pickles!",
"start_offset" : 0,
"end_offset" : 31,
"type" : "word",
"position" : 1
} ]
}
當然,我可以添加另一個過濾器,去除換行符,但沒有任何有關文檔這個?
非常感謝您的鏈接!這是有道理的,給出過濾器名稱就很奇怪。 – esperluette