使用python搜索文件

我的問題是當我使用python搜索pdf文件時。我通過網上搜索就行，以便假設我有一個行包含：使用python搜索文件

「這這這％這個」

所以，如果我們把 X =「這這這％這個」，我想來計算「this」的數量並忽略收益「％」，因爲它是一個評論。代碼：

if re.search("%",x): 
    new_line = x.split() 
    for g in new_line: 
     if re.search("%",g): 
      break 
     elif g == "this": 
      counter = counter+1 
    print (counter)

但如果我有以下幾點：

X =「這這這％此％這個」第二個結束的評論，我想跳過「這個」，這是在「％」之間並且計數最後一個

有沒有任何一個想法來做到這一點？

來源

2014-04-11 user3461464

如果打開一個PDF文件爲文本文件，並試圖解析出的內容，要知道，PDF文件通常*做不會*將它們的內容存儲在出現在輸出中的順序文本字符串中。解析原始PDF可能是一項根本不可能完成的任務。 –

data = "this this this %this %this" 

data = ' '.join(data.split('%')[::2]) 

data # => "this this this this"

來源

2014-04-11 16:03:44

非常感謝。如果你不介意，我可以問你更多的問題嗎？ – user3461464

你可以嘗試

x = re.sub("%[^%]*%?", "", x);

演示：http://regex101.com/r/tE6rL7

來源

2014-04-11 16:04:08 Khaelid

比你非常神奇。如果你不介意，請參加一個項目，我需要進一步的幫助。 – user3461464

使用python搜索文件

回答

相關問題