2014-01-24 176 views
-1

我想閱讀下面的pdf文件,並且需要將每篇文章保存在單獨的文件中。使用Python閱讀pdf內容

https://dl.dropboxusercontent.com/u/23092311/sample.pdf

的一篇文章可以在一個或多個頁面。我已經使用PDFMiner將整個PDF轉換爲txt文件。但我不知道如何轉換成多篇文章。

我是Python新手。請提供一個最佳方法或示例代碼來分別提取每一篇文章?

+1

這是我的電子郵件:[email protected]謝謝devnull – user4k

+0

嗨devnull,我在等待你的迴應!請讓我知道 – user4k

回答

0

我說實話。我以前從未使用過PDFMiner,但是如果您已經將PDF轉換爲文本文件,是不是可以將文本文件解析爲字符串,然後使用split function將該字符串劃分爲不同的文章,基於「The New紐約時報「標題?我想這是假設PDFMiner能夠讀取那個花哨的字體,我不知道這是否可能。

看着你所提供的文件,你可以像下面這樣:然後

reading = open('test.txt') 
full_paper = reading.read() 
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.') 

split_paper將包含在索引1,2,3,4,5你的文章的陣列,6(指數0將包含初始標題)。你必須做一些其他的字符串清理來獲得確切的文章,但至少應該讓你開始。

有意義嗎?

+0

請找到相應的文本文件。 https://github.com/kannan4k/Sentimental-Analysis-in-Python/blob/master/sample.txt – user4k

+0

更新了最初的評論。如果您有任何問題,請告訴我。 – Rooks103