ElasticSearch中的html_strip字符過濾器用換行符替換標籤？

我正在測試ElasticSearch的一些自定義過濾器，因爲我很迷戀，所以我決定測試標準的html_strip字符過濾器，以確認我知道它是如何工作的。ElasticSearch中的html_strip字符過濾器用換行符替換標籤？

如此看來，我不知道它是如何工作的，因爲我認爲它會去除所有的HTML，並沒有取代它，但它似乎對不同的標籤，例如做不同的事情P（與格）標籤與換行符替換：

curl -XGET 'http://localhost:9200/test-analysis/_analyze?tokenizer=keyword&char_filters=html_strip&pretty=1' -d 'Oh <p class="stuff">pickles</p>!' 
{ 
    "tokens" : [ { 
    "token" : "Oh \npickles\n!", 
    "start_offset" : 0, 
    "end_offset" : 32, 
    "type" : "word", 
    "position" : 1 
    } ] 
}

強勁的標籤和鏈接用什麼代替：

curl -XGET 'http://localhost:9200/test-analysis/_analyze?tokenizer=keyword&char_filters=html_strip&pretty=1' -d 'Oh <a href="stuff">pickles</a>!' 
{ 
    "tokens" : [ { 
    "token" : "Oh pickles!", 
    "start_offset" : 0, 
    "end_offset" : 31, 
    "type" : "word", 
    "position" : 1 
} ] 
}

當然，我可以添加另一個過濾器，去除換行符，但沒有任何有關文檔這個？

來源

2016-06-10 esperluette

這樣做的原因行爲是HTML塊標籤如<div>，<p>等由換行字符和HTML內嵌標記如a，strong等被簡單地消除更換。

當在Lucene源代碼中查看HTMLStripCharFilter.java的源代碼時，可以確認這一點。在該類中的某些時候，我們可以看到幾個常數這樣的，這不言自明：

private static final char BLOCK_LEVEL_START_TAG_REPLACEMENT = '\n'; 
    private static final char BLOCK_LEVEL_END_TAG_REPLACEMENT = '\n'; 
    private static final char BR_START_TAG_REPLACEMENT = '\n'; 
    private static final char BR_END_TAG_REPLACEMENT = '\n'; 
    private static final char SCRIPT_REPLACEMENT = '\n'; 
    private static final char STYLE_REPLACEMENT = '\n'; 
    private static final char REPLACEMENT_CHARACTER = '\uFFFD';

的想法是或多或少複製相同文本的段落將在瀏覽器屏幕呈現。

來源

2016-06-11 04:59:47 Val

非常感謝您的鏈接！這是有道理的，給出過濾器名稱就很奇怪。 – esperluette

ElasticSearch中的html_strip字符過濾器用換行符替換標籤？

回答

相關問題