爲字典生成字數

我有索引過程，它將mysql數據庫中的文檔放入solr。爲字典生成字數

我想記錄拼寫更正每個單詞的出現次數。

我明顯可以將它們全部轉儲爲一個純文本文件，然後sort | uniq -c該文件，並保留所有字數高於N的所有單詞 - 是要走的路，還是有一些更聰明的方法？

2011-10-25 taw

在SOLR中，您有多面。您可以嘗試使用facet.field指向存儲您感興趣的文本數據的字段來執行facet搜索。您可以使用facet.mincount在特定頻率級別上剪切輸出列表。確保設置facet.zeroes = false以從結果頻率列表中排除任何可能的零。

2011-10-25 13:42:39

回答