我已經看到了Stackoverflow中「有效搜索文件中的字符串」問題的幾個變體,但不像我的情況。在(非常大的)文本中計算(大量)字符串
我有一個文本文件,其中包含一個相對較大的數字(> 300K)的字符串。絕大多數這些字符串是多個詞(例如,「普萊西訴弗格森」,「約翰史密斯」等)。
從那裏,我需要搜索非常大的一組文本文件(一組總共大於10GB的合法文檔)並計算這些字符串的實例。
因爲搜索字符串的數量,有多個單詞的字符串和搜索目標的大小,很多「標準」的解決方案似乎倒在路邊。
有些事情簡化問題一點點 -
我不需要複雜的符號化/詞幹/等(如我所關心的唯一實例是「普萊西訴弗格森。」,不需要擔心「普萊西」,「普萊西等」)
會有一些重複(例如,多個人名爲「約翰史密斯」),但是,這不是一個非常這個數據集有統計學意義的問題,所以......如果多個John Smith被合併成一個單一的計數,那麼現在就可以。
我只需要計算這些特定的實例;我並不需要返回搜索結果
在1個文件10個實例數相同,每10個文件
快速/骯髒的方式來解決這個問題有什麼建議1個實例?
我已經調查了NLTK,Lucene &其他人,但他們似乎是矯枉過正的問題,我試圖解決。我應該把它吸入並將所有內容導入到數據庫中? bruteforce grep它300K次? ;)
我的首選開發工具是Python。
要搜索的文檔主要是法律文檔這樣的 - http://www.lawnix.com/cases/plessy-ferguson.html
預期的成果是對的情況下是如何經常跨越這些文檔中引用tallys - 「普萊西v弗格森:15」
你能否解釋多一點什麼輸入你想用它做什麼?像之前/之後的例子總是很好!真的有助於提供一個很好的答案... – 2011-06-15 17:20:54