在多個文件中找到彼此相關的短語

我有一個問題試圖解決這個問題，有一個文件夾中有6000個文本文件。我需要的是找到在所有這些文件中重複出現的短語，並將其包含在報告中。這個問題超出了常規 grep -Hl <phrase> Folder/*.txt 問題是，我不知道短語要捕獲，應該掃描所有文件，並獲得5個字段，並環顧其他文件找到匹配。在多個文件中找到彼此相關的短語

如果有一種方法可以使用python來實現，那麼我就是耳朵。我想到NTLK或機器學習，但需要更多的細節。

來源

2016-11-12 Alexandro Colorado

你可以添加一個例子嗎？ 5個詞段是否意味着文檔中的任何五個詞組？ – wwii

您是否希望首先找到一個很好的候選字符串用於羣集文件？ – gowrath

查看n-gram方法。您可以解析文件中的「五克」段。

Here是如何使用n-gram在文本中查找模式的一個很好的示例。您需要決定如何搜索所有文本文件。如果它們足夠小，則可以將它們組合起來，或者將它們讀入一個字符串中，然後從中解析出來。

Another使用n元組的方法。

來源

2016-11-12 01:47:32 solvador

在多個文件中找到彼此相關的短語

回答

相關問題