2016-11-12 51 views
0

我有一個問題試圖解決這個問題,有一個文件夾中有6000個文本文件。我需要的是找到在所有這些文件中重複出現的短語,並將其包含在報告中。這個問題超出了常規 grep -Hl <phrase> Folder/*.txt 問題是,我不知道短語要捕獲,應該掃描所有文件,並獲得5個字段,並環顧其他文件找到匹配。在多個文件中找到彼此相關的短語

如果有一種方法可以使用python來實現,那麼我就是耳朵。我想到NTLK機器學習,但需要更多的細節。

+0

你可以添加一個例子嗎? 5個詞段是否意味着文檔中的任何五個詞組? – wwii

+0

您是否希望首先找到一個很好的候選字符串用於羣集文件? – gowrath

回答

0

查看n-gram方法。您可以解析文件中的「五克」段。

Here是如何使用n-gram在文本中查找模式的一個很好的示例。您需要決定如何搜索所有文本文件。如果它們足夠小,則可以將它們組合起來,或者將它們讀入一個字符串中,然後從中解析出來。

Another使用n元組的方法。