我想用Python來處理從.pdf
刮掉的文本。Python - 文本處理
我試圖做到這一點的方法之一是:找到特定項目並打印相同的行,前面的行或後面的行。
我環顧四周,並遵循一些教程,讓我到這一點,但我不知道如何前進。
下面的代碼將使用「find」函數查找並打印當前行中的信息,但我需要能夠使用它來打印以下和之前的行。
即報廢看起來像這樣的文字:
史密斯,約翰
每尾12年12月12日
文件:
我使用的代碼是這樣的:
def main():
file = open("Register.txt","r")
lines = file.readlines()
file.close
for line in lines:
line = line.strip()
countPerEnd = 0
countFile = 0
if line.find("Per End")!=-1:
countPerEnd = countPerEnd + 1
if line.find("File:")!=-1:
countFile = countFile + 1
print ("Per End: ", countPerEnd)
print ("File: ", countFile)
main()
我只能得到我要打印的行,但需要他們能夠罰款其他項目,如在這種情況下的名稱和數字後面的「文件:」。
因爲這可以是任何事情,但字符串「Per End」和「file:」總是會一樣的。
我打印出結果以查看輸出的位置。
輸出是: 每結束:12年12月12日
和輸出I,基於尋找 「每尾」 需要: 史密斯,約翰
你的問題不清楚....你發佈的文本是輸入或你在運行後得到的你創建的功能?你想幹什麼?從這段文字中提取「史密斯,約翰」,「12/12/12」和「12345」的值? –
我添加了期望的結果。我希望它清除一些事情。 –