2012-02-01 56 views
10

是否有任何方式通過編程方式從PDF文件中提取突出顯示的文本和註釋?歡迎任何語言。我發現了幾個Python,Java和PHP的庫,但他們都沒有完成這項工作。如何從PDF文件中提取註釋和突出顯示的部分

我不知道是否有可能。我也知道有些程序會創建額外的文件來保存這種信息(如果我沒有錯,Kindle會生成另一個文件),但目前這些文件已超出範圍。

+0

感謝您的回答。我還發現了另一種解決這個問題的方法,用一點點的方法:)由Adobe Reader創建的便籤很容易解析,因爲便籤被粘貼到PDF文件中,包含內容和位置信息,但是高亮區域只有矩形信息我應該按位置提取文本。所以我必須爲它編寫一些代碼。作爲基本庫,我可以使用PDFMiner,它提供有關文本位置的信息。 – user1183057 2012-02-07 15:23:51

回答

8

好吧,看完後我找到了一個解決方案,用於將突出顯示的文本從pdf導出到文本文件。是不是很辛苦:

  1. 首先,強調你喜歡使用的工具文本(在我的情況,我,而我在iPad上使用GOODREADER應用程式閱讀書籍突出)。

  2. 傳輸您的PDF到計算機,並使用脫脂(PDF閱讀器,灑脫地在網上找到)

  3. 上的文件,選擇轉換NOTES和轉換您的文檔的所有筆記將其打開SKIM筆記。

  4. 就是這樣:只需進入EXPORT並選擇EXPORT SKIM NOTES。它會將您突出顯示的文本列表導出給您。一旦打開,此列表可以再次導出爲txt格式的文件。

沒有太多的工作要做,而結果是太棒了。

+3

Skim僅適用於MAC。有沒有Windows替代品? – 2013-02-02 03:29:03

相關問題