2015-05-14 44 views
0

我正在爲HTML文檔中的關鍵字編制索引,但我不想索引HTML標籤。避免將HTML標籤編入搜索關鍵字

例如:

<div> <!-- this is html code --> 
<span>You are welcome</span> <!-- simple message for searching --> 
<div> 
<h1>Testing text</h1> <!-- second message --> 
</div> 
</div> 

預計關鍵字:

keywords:You 

我怎樣才能避免HTML標籤變得關鍵字?

+0

'HTMLStripCharFilter'也許? – mschonaker

回答

0

我想你需要解析HTML並提取每個標記的內部文本。

+0

我如何解析與html標記和java代碼的jsp頁面? –

+0

任何解析器都可用於解析jsp頁面? –