Marklogic：獨特單詞數

我有以下XML結構： -Marklogic：獨特單詞數

<Root> 
<text> 
Marklogic is a good big data tool. Right now I am exploring Marklogic. 
</text> 
</Root>

現在我想算的唯一字（如Marklogic- 2倍，BIG-1時，數據-1時間等的發生）。我通過使用fn:count()來實現此目的，但在數據庫較大的情況下，fn:count()太慢。

是否有任何其他優化的方式來實現這一目標？（與索引相關的東西）

來源

2012-10-16 Puneet Pant

http://stackoverflow.com/questions/25403223/counting-all-unique-words-in-an-unstructured-document-using-index-data –

根據http://docs.marklogic.com/guide/search-dev/lexicon#chapter您可以啓用單詞詞典並使用cts:words。

來源

2012-10-16 15:11:29 mblakele

我們檢查了這個文檔，但沒有找到任何方法得到個人字數。我們可以通過啓用單詞詞典來獲得所有獨特的單詞，但我們的目的是爲這些單詞詞典獲得單詞計數。我們也嘗試過xdmp：估計，但它返回了片段數。所以在上面的示例XML文件中，我們將「Marklogic」單詞計爲「1」，因爲它在一個片段中出現兩次，所以應該是「2」。我們仍然堅持請幫助。 –

@PuneetPant你可以使用'item-frequency'選項來獲取元素數量，而不是使用'fragment-frequency'，這是默認值。 – wst

Marklogic：獨特單詞數

回答

相關問題