使用Python閱讀pdf內容

-1

我想閱讀下面的pdf文件，並且需要將每篇文章保存在單獨的文件中。使用Python閱讀pdf內容

https://dl.dropboxusercontent.com/u/23092311/sample.pdf

的一篇文章可以在一個或多個頁面。我已經使用PDFMiner將整個PDF轉換爲txt文件。但我不知道如何轉換成多篇文章。

我是Python新手。請提供一個最佳方法或示例代碼來分別提取每一篇文章？

來源

2014-01-24 user4k

這是我的電子郵件：[email protected]謝謝devnull – user4k

嗨devnull，我在等待你的迴應！請讓我知道 – user4k

我說實話。我以前從未使用過PDFMiner，但是如果您已經將PDF轉換爲文本文件，是不是可以將文本文件解析爲字符串，然後使用split function將該字符串劃分爲不同的文章，基於「The New紐約時報「標題？我想這是假設PDFMiner能夠讀取那個花哨的字體，我不知道這是否可能。

看着你所提供的文件，你可以像下面這樣：然後

reading = open('test.txt') 
full_paper = reading.read() 
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.')

split_paper將包含在索引1，2，3，4，5你的文章的陣列，6（指數0將包含初始標題）。你必須做一些其他的字符串清理來獲得確切的文章，但至少應該讓你開始。

有意義嗎？

來源

2014-01-24 16:21:14 Rooks103

請找到相應的文本文件。 https://github.com/kannan4k/Sentimental-Analysis-in-Python/blob/master/sample.txt – user4k

更新了最初的評論。如果您有任何問題，請告訴我。 – Rooks103

使用Python閱讀pdf內容

回答

相關問題