解析一本書或文章pdf獲取元數據

我想從我知道它們是書或文章的pdf文件中提取元數據（標題，作者，出版日期等）。是否有任何書籍和文章的模板？解析時，我怎麼知道我找到了正確的東西？我可以使用哪些工具或庫？解析一本書或文章pdf獲取元數據

據我所知，現在的PDF圖書和佈置的配置標準始終是針對特定出版商。但我認爲，如果你想自動儲存在PDF格式的書籍分類，那麼你可以考慮以下情形：

需要2至5個主要發行商（即80％，從80/20 Paretto原則），並檢查PDF書的第一頁爲他們特定的頁眉或頁腳，如「PublisherName發佈」
比較源PDF的結構與您在上一步創建的模式。您可以提取使用低級庫（如iTextSharp）的可視佈局的結構，或者提供高級庫（如商業PDF Extractor SDK），這些庫提供按列/行訪問的API。
通過這些過濾器來整理輸入書籍，以找出哪個出版商製作了這本書。
將選定發佈者的預編碼提取應用於書籍以及該發佈者使用的版式。

這樣，您可以嘗試覆蓋主要發佈商並讓非主要發佈商進行手動分類。另請注意，PDF文件包含Producer,Author,Title字段作爲標準標題，您可以使用它作爲有關書籍的附加信息來源。

披露：我與ByteScout，PDF提取SDK的設備和免費PDF Multitool

2016-07-01 07:27:48

回答