2016-07-21 80 views
1

我目前正在使用python進行編碼,並設法使用pdftotext來從pdf中提取文本。使用pdftotext後:從txt查找字符串的頁面

該特定文本文件被拆分爲字符串列表。通過使用正則表達式,我能夠找到我感興趣的特定單詞。爲什麼我將文本分成列表的原因是我想測量兩個特定單詞之間的距離,而距離是指單詞之間的單詞數量兩個字。

然而,在找到單詞的位置之後,我希望能夠引用最初的pdf。詳細地說,我對這個頁面感興趣,甚至可能在這些詞語所在的行(如果pdf支持這種結構)。

我的一個想法是爲pdf的每個頁面執行此過程,因此當我找到這些字詞時,我知道這是什麼頁面。但是這有一個很大的缺點,即有時分頁不一定是自然的。意思是,如果不幸被分頁符隔開,我將失去查找單詞的能力。

你有什麼想法如何以更復雜的方式做到這一點?

回答

0

您需要比您使用的庫更復雜的庫。 Datalogics PDF Java Toolkit有幾個可以從PDF文件中提取文本的類。你使用的取決於你想在提取後對文本做什麼。 ReadingOrderTextExtractor將創建一個列表列表,這將允許您提取文本並檢查段落的內容,這些段落中的句子以及該句子中的單詞。你不僅能夠說出單詞之間的距離,而且它們是否在同一個句子或段落中。一個你找到了一個Word對象,你可以找到它在頁面上的位置,允許突出顯示,以及它的頁碼。

相關問題