我想閱讀下面的pdf文件,並且需要將每篇文章保存在單獨的文件中。使用Python閱讀pdf內容
https://dl.dropboxusercontent.com/u/23092311/sample.pdf
的一篇文章可以在一個或多個頁面。我已經使用PDFMiner將整個PDF轉換爲txt文件。但我不知道如何轉換成多篇文章。
我是Python新手。請提供一個最佳方法或示例代碼來分別提取每一篇文章?
我想閱讀下面的pdf文件,並且需要將每篇文章保存在單獨的文件中。使用Python閱讀pdf內容
https://dl.dropboxusercontent.com/u/23092311/sample.pdf
的一篇文章可以在一個或多個頁面。我已經使用PDFMiner將整個PDF轉換爲txt文件。但我不知道如何轉換成多篇文章。
我是Python新手。請提供一個最佳方法或示例代碼來分別提取每一篇文章?
我說實話。我以前從未使用過PDFMiner,但是如果您已經將PDF轉換爲文本文件,是不是可以將文本文件解析爲字符串,然後使用split function將該字符串劃分爲不同的文章,基於「The New紐約時報「標題?我想這是假設PDFMiner能夠讀取那個花哨的字體,我不知道這是否可能。
看着你所提供的文件,你可以像下面這樣:然後
reading = open('test.txt')
full_paper = reading.read()
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.')
split_paper將包含在索引1,2,3,4,5你的文章的陣列,6(指數0將包含初始標題)。你必須做一些其他的字符串清理來獲得確切的文章,但至少應該讓你開始。
有意義嗎?
這是我的電子郵件:[email protected]謝謝devnull – user4k
嗨devnull,我在等待你的迴應!請讓我知道 – user4k