2017-04-07 65 views
0

每當Solr的是通過以下命令索引到集合(與configSet sample_techproducts_configs),並使用URL,:如何刪除SOLR索引內容中的腳本和樣式[內容字段],同時通過URL索引?

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3 

所創建的索引確實有複製到text字段的字段content。 該字段確實具有使用嵌入式tika解析解析的網頁內容的價值。

但是,如果這些網頁包含任何<script><style>標記,<body>將被刪除,但這些相應標記中的腳本或樣式仍保留爲網頁內容,並顯示爲響應Solr查詢。

如何刪除這些不需要的內容?

回答

0

SimplePostTool閱讀DATA_MODE_WEBinputstream(只對他們來說,內容類型爲「text/html的」,並刪除所有<script><style>標籤,其內容,並再次轉換是content_String在readPageFromUrl(URL u)功能使用stringToStream(String)到流。

相關問題