我有一個文本文件,其中包含35k字的段落。下面的示例蟒蛇 - 找到文件中的匹配句子
This sentence does repeat? This sentence does not repeat! This sentence does not repeat. This sentence does repeat.
This sentence does repeat. This sentence does not repeat! This sentence does not repeat. This sentence does repeat!
我想識別匹配的句子。我設法找到的一種方法是使用.
,!
,?
等作爲分隔符將段落拆分爲單獨的行,並查找匹配的行。
代碼
import collections as col
with open('txt.txt', 'r') as f:
l = f.read().replace('. ','.\n').replace('? ','?\n').replace('! ','!\n').splitlines()
print([i for i, n in col.Counter(l).items() if n > 1])
請提出一些更好的方法。
得到這個錯誤'sre_constants.error:沒有重複的位置0' –
@VanPeer我的道歉,我犯了一個正則表達式的錯誤。我自更新了我的答案。請再試一次。 – rb612
謝謝,似乎正在工作!得到這個警告信息 're.py:212:FutureWarning:split()需要一個非空的模式匹配。 return _compile(pattern,flags).split(string,maxsplit)' –