PyPDF2堅持刪除所有空格

我已經閱讀了一些其他的計算器答案，並且還沒有找到一個令人滿意的答案，但它之前已被問過。當我嘗試使用PyPDF2來讀取pdf文檔時，它將句子中的所有單詞合併爲一個連續的字符串。有沒有人想出如何避免這種情況。下面是代碼PyPDF2堅持刪除所有空格

import PyPDF2 
import pandas as pd 

import struct as struct 

from nltk import word_tokenize 

pdfFileObj = open("notes.pdf", 'rb') 

    pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 

## reading pages fine 
print(type(pdfReader.numPages)) 

## read in the pages 
pageObj = pdfReader.getPage(0) 

print(pageObj.extractText())

以下

被輸出

2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability 
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics. 
3)Datasummarization(graphicalandnumerical) 

4)Probabilityandrandomvariables

來源

2016-04-28 Steve

從來沒有想出如何把空格去掉的樣本，這是一個非常笨拙的程序。我發現使用pdfMiner的答案是最有幫助的。這很容易理解，並有更好的文檔。以下是與我自己有同樣問題的任何人的鏈接。

http://survivalengineer.blogspot.ie/2014/04/parsing-pdfs-in-python.html

來源

2016-05-06 14:46:11 Steve

PyPDF2堅持刪除所有空格

回答

相關問題