0
我有一個問題試圖解決這個問題,有一個文件夾中有6000個文本文件。我需要的是找到在所有這些文件中重複出現的短語,並將其包含在報告中。這個問題超出了常規 grep -Hl <phrase> Folder/*.txt
問題是,我不知道短語要捕獲,應該掃描所有文件,並獲得5個字段,並環顧其他文件找到匹配。在多個文件中找到彼此相關的短語
如果有一種方法可以使用python來實現,那麼我就是耳朵。我想到NTLK或機器學習,但需要更多的細節。
你可以添加一個例子嗎? 5個詞段是否意味着文檔中的任何五個詞組? – wwii
您是否希望首先找到一個很好的候選字符串用於羣集文件? – gowrath