2011-10-25 100 views
1

我有索引過程,它將mysql數據庫中的文檔放入solr。爲字典生成字數

我想記錄拼寫更正每個單詞的出現次數。

我明顯可以將它們全部轉儲爲一個純文本文件,然後sort | uniq -c該文件,並保留所有字數高於N的所有單詞 - 是要走的路,還是有一些更聰明的方法?

回答

1

在SOLR中,您有多面。您可以嘗試使用facet.field指向存儲您感興趣的文本數據的字段來執行facet搜索。您可以使用facet.mincount在特定頻率級別上剪切輸出列表。確保設置facet.zeroes = false以從結果頻率列表中排除任何可能的零。