2012-10-16 37 views
1

我有以下XML結構: -Marklogic:獨特單詞數

<Root> 
<text> 
Marklogic is a good big data tool. Right now I am exploring Marklogic. 
</text> 
</Root> 

現在我想算的唯一字(如Marklogic- 2倍,BIG-1時,數據-1時間等的發生)。我通過使用fn:count()來實現此目的,但在數據庫較大的情況下,fn:count()太慢。

是否有任何其他優化的方式來實現這一目標? (與索引相關的東西)

+0

http://stackoverflow.com/questions/25403223/counting-all-unique-words-in-an-unstructured-document-using-index-data –

回答

0

根據http://docs.marklogic.com/guide/search-dev/lexicon#chapter您可以啓用單詞詞典並使用cts:words

+1

我們檢查了這個文檔,但沒有找到任何方法得到個人字數。我們可以通過啓用單詞詞典來獲得所有獨特的單詞,但我們的目的是爲這些單詞詞典獲得單詞計數。我們也嘗試過xdmp:估計,但它返回了片段數。所以在上面的示例XML文件中,我們將「Marklogic」單詞計爲「1」,因爲它在一個片段中出現兩次,所以應該是「2」。我們仍然堅持請幫助。 –

+0

@PuneetPant你可以使用'item-frequency'選項來獲取元素數量,而不是使用'fragment-frequency',這是默認值。 – wst