1
我已經閱讀了一些其他的計算器答案,並且還沒有找到一個令人滿意的答案,但它之前已被問過。當我嘗試使用PyPDF2來讀取pdf文檔時,它將句子中的所有單詞合併爲一個連續的字符串。有沒有人想出如何避免這種情況。下面是代碼PyPDF2堅持刪除所有空格
import PyPDF2
import pandas as pd
import struct as struct
from nltk import word_tokenize
pdfFileObj = open("notes.pdf", 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
## reading pages fine
print(type(pdfReader.numPages))
## read in the pages
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
以下
被輸出
2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics.
3)Datasummarization(graphicalandnumerical)
4)Probabilityandrandomvariables