2014-04-11 174 views
0

我的問題是當我使用python搜索pdf文件時。我通過網上搜索就行,以便假設我有一個行包含:使用python搜索文件

「這這這%這個」

所以,如果我們把 X =「這這這%這個」,我想來計算「this」的數量並忽略收益「%」,因爲它是一個評論。代碼:

if re.search("%",x): 
    new_line = x.split() 
    for g in new_line: 
     if re.search("%",g): 
      break 
     elif g == "this": 
      counter = counter+1 
    print (counter) 

但如果我有以下幾點:

X =「這這這%此%這個」第二個結束的評論,我想跳過「這個」,這是在「%」之間並且計數最後一個

有沒有任何一個想法來做到這一點?

+1

如果打開一個PDF文件爲文本文件,並試圖解析出的內容,要知道,PDF文件通常*做不會*將它們的內容存儲在出現在輸出中的順序文本字符串中。解析原始PDF可能是一項根本不可能完成的任務。 –

回答

0
data = "this this this %this %this" 

data = ' '.join(data.split('%')[::2]) 

data # => "this this this this" 
+0

非常感謝。如果你不介意,我可以問你更多的問題嗎? – user3461464