我的問題是當我使用python搜索pdf文件時。我通過網上搜索就行,以便假設我有一個行包含:使用python搜索文件
「這這這%這個」
所以,如果我們把 X =「這這這%這個」,我想來計算「this」的數量並忽略收益「%」,因爲它是一個評論。代碼:
if re.search("%",x):
new_line = x.split()
for g in new_line:
if re.search("%",g):
break
elif g == "this":
counter = counter+1
print (counter)
但如果我有以下幾點:
X =「這這這%此%這個」第二個結束的評論,我想跳過「這個」,這是在「%」之間並且計數最後一個
有沒有任何一個想法來做到這一點?
如果打開一個PDF文件爲文本文件,並試圖解析出的內容,要知道,PDF文件通常*做不會*將它們的內容存儲在出現在輸出中的順序文本字符串中。解析原始PDF可能是一項根本不可能完成的任務。 –