0
我有一個約兩百萬文本文件的集合,總共約10GB未壓縮。我希望在這個集合中找到包含短語的文檔,看起來像「每次」或「bill clinton」(簡單的不區分大小寫的字符串匹配)。我也想找到含有模糊內容的短語;例如「數週」。如何在一組文件中查找字符串和字符串模式?
我試過使用Lucene進行索引,但找到包含停用詞的短語並不好,因爲它們在索引時默認會被刪除。 xargs和grep是一個緩慢的解決方案。這種數據量的快速和適用性是什麼?
當然Lucene。也許你應該問「我怎麼能做到這一點,並與Lucene」 –
關閉Lucene的停止詞處理?祝你好運。 – shellter