1
我有索引過程,它將mysql數據庫中的文檔放入solr。爲字典生成字數
我想記錄拼寫更正每個單詞的出現次數。
我明顯可以將它們全部轉儲爲一個純文本文件,然後sort | uniq -c
該文件,並保留所有字數高於N的所有單詞 - 是要走的路,還是有一些更聰明的方法?
我有索引過程,它將mysql數據庫中的文檔放入solr。爲字典生成字數
我想記錄拼寫更正每個單詞的出現次數。
我明顯可以將它們全部轉儲爲一個純文本文件,然後sort | uniq -c
該文件,並保留所有字數高於N的所有單詞 - 是要走的路,還是有一些更聰明的方法?
在SOLR中,您有多面。您可以嘗試使用facet.field指向存儲您感興趣的文本數據的字段來執行facet搜索。您可以使用facet.mincount在特定頻率級別上剪切輸出列表。確保設置facet.zeroes = false以從結果頻率列表中排除任何可能的零。