2011-11-07 22 views
0

我有一個關鍵字的列表,我需要確保不存在一個字符串。 此字符串可以是純文本或純文本,其中包含svn或git存儲庫語法,如補丁。 你究竟如何在python/django環境中實現這個搜索?正則表達式,循環,grep?理想情況下,我也希望能夠將它展示給用戶。python django分析一個文件的關鍵字列表

+0

你能提供的文本文件是如何構成的一個樣本? – Ole

+0

它基本上是svn標籤的C++代碼,所以頁眉和頁腳有諸如+++++++++++ – user391986

回答

1

給你:

import re 

BAD_WORDS = ["spam", "ham"] 
BAD_WORDS_RE = re.compile(r"\b(%s)\b" % "|".join(BAD_WORDS)) 

for i, line in enumerate(open("file.txt").readlines()): 
    words = set(BAD_WORDS_RE.findall(line)) 
    if words: 
     print "Found the following words on line %i: %s" % (i + 1, ", ".join(words)) 
     print line 
1
txt = open('the_file.txt', 'r').read() 
for keyword in ['foo', 'bar']: 
    if keyword in txt: 
     # Do something for when the keyword is found 
     print 'Matched keyword %s' % keyword 
相關問題