我目前正在使用python進行編碼,並設法使用pdftotext來從pdf中提取文本。使用pdftotext後:從txt查找字符串的頁面
該特定文本文件被拆分爲字符串列表。通過使用正則表達式,我能夠找到我感興趣的特定單詞。爲什麼我將文本分成列表的原因是我想測量兩個特定單詞之間的距離,而距離是指單詞之間的單詞數量兩個字。
然而,在找到單詞的位置之後,我希望能夠引用最初的pdf。詳細地說,我對這個頁面感興趣,甚至可能在這些詞語所在的行(如果pdf支持這種結構)。
我的一個想法是爲pdf的每個頁面執行此過程,因此當我找到這些字詞時,我知道這是什麼頁面。但是這有一個很大的缺點,即有時分頁不一定是自然的。意思是,如果不幸被分頁符隔開,我將失去查找單詞的能力。
你有什麼想法如何以更復雜的方式做到這一點?