2016-06-30 29 views

回答

0

據我所知,現在的PDF圖書和佈置的配置標準始終是針對特定出版商。但我認爲,如果你想自動儲存在PDF格式的書籍分類,那麼你可以考慮以下情形:

  • 需要2至5個主要發行商(即80%,從80/20 Paretto原則),並檢查PDF書的第一頁爲他們特定的頁眉或頁腳,如「PublisherName發佈」
  • 比較源PDF的結構與您在上一步創建的模式。您可以提取使用低級庫(如iTextSharp)的可視佈局的結構,或者提供高級庫(如商業PDF Extractor SDK),這些庫提供按列/行訪問的API。
  • 通過這些過濾器來整理輸入書籍,以找出哪個出版商製作了這本書。
  • 將選定發佈者的預編碼提取應用於書籍以及該發佈者使用的版式。

這樣,您可以嘗試覆蓋主要發佈商並讓非主要發佈商進行手動分類。另請注意,PDF文件包含Producer,Author,Title字段作爲標準標題,您可以使用它作爲有關書籍的附加信息來源。

披露:我與ByteScout,PDF提取SDK的設備和免費PDF Multitool