我有這有這樣的結構的一些XML文檔:忽略CTS元素:搜索
<root>
<intro>...</intro>
...
<body>
<p>..................
some text CO<sub>2</sub>
.................. </p>
</body>
</root>
現在我想搜索所有與短語CO2的結果,也希望得到上述類型的結果搜索結果。 爲此,我使用這個查詢 -
cts:search
(fn:collection ("urn:iddn:collections:searchable"),
cts:element-query
(
fn:QName("http://iddn.icis.com/ns/fields","body"),
cts:word-query
(
"CO2",
("case-insensitive","diacritic-sensitive","punctuation-insensitive",
"whitespace-sensitive","unstemmed","unwildcarded","lang=en"),
1
)
)
,
("unfiltered", "score-logtfidf"),
0.0)
但是使用這個我不能用CO<sub>2</sub>
拿到文件。我只用簡單的短語CO2
獲取數據。
如果我更換搜索短語CO 2
話,我能得到的文檔只CO<sub>2</sub>
,而不是與CO2
我想要得到的結合爲同一個CO<sub>2</sub>
和CO2
作爲搜索結果的數據。
那麼我可以通過任何方式忽略<sub>
,或者有什麼其他方法來解決這個問題嗎?
我覺得有趣的是ML在上標記了一個短語(對我來說)建議忽略標記。 –
索引在樹模型上運行,而不是在標記的字符表示上。所以有一個內在的突破,因爲有一個完全不同的文本節點。我認爲有些案例(比如這樣)需要一個「單詞通過」來將令牌拼接在一起,但這並不總是正確的做法。 – mholstege
HI Mary - 完美 - 所以短語貫穿元素中的項目仍然是單獨的節點。說得通。謝謝! –