我所擁有的是一堆PDFs(少數100s)。他們沒有合適的結構,也沒有特定的領域。他們都有很多文字。如何索引PDF文件並搜索關鍵字?
我所試圖做的事:
指數PDF和搜索對索引一些關鍵字。 我有興趣查找該PDF文檔中是否包含該特定關鍵字,如果是,則需要找到該關鍵字的行。 如果我在包含該術語的PDF文檔中搜索「Google」,我希望看到'Google是一個很棒的搜索引擎',它是PDF中的一行。
如何,我決定做:
無論是使用SOLR或嗖但SOLR是好看的內置PDF支持。我更喜歡用Python編碼,Sunburst是我喜歡的SOLR封裝。 SOLR的示例/示例項目有一些基於價格比較的模式文件。現在我不確定是否可以使用SOLR來回答我的問題。
你們有什麼建議?任何輸入都非常感謝。
您是否建議通過每個PDF包含的每個單詞或詞組來編制索引?如果不是,您將如何生成關鍵字列表? – smci
我有一個關鍵字實際上的列表。我想索引PDF中的所有內容,然後使用我的關鍵字針對該索引運行搜索。 – ThinkCode