0
我想從我知道它們是書或文章的pdf文件中提取元數據(標題,作者,出版日期等)。是否有任何書籍和文章的模板?解析時,我怎麼知道我找到了正確的東西?我可以使用哪些工具或庫?解析一本書或文章pdf獲取元數據
有一個部分關於我的問題的問題:Libraries for parsing PDF, PostScript and/or DjVu
我想從我知道它們是書或文章的pdf文件中提取元數據(標題,作者,出版日期等)。是否有任何書籍和文章的模板?解析時,我怎麼知道我找到了正確的東西?我可以使用哪些工具或庫?解析一本書或文章pdf獲取元數據
有一個部分關於我的問題的問題:Libraries for parsing PDF, PostScript and/or DjVu
據我所知,現在的PDF圖書和佈置的配置標準始終是針對特定出版商。但我認爲,如果你想自動儲存在PDF格式的書籍分類,那麼你可以考慮以下情形:
這樣,您可以嘗試覆蓋主要發佈商並讓非主要發佈商進行手動分類。另請注意,PDF文件包含Producer
,Author
,Title
字段作爲標準標題,您可以使用它作爲有關書籍的附加信息來源。
披露:我與ByteScout,PDF提取SDK的設備和免費PDF Multitool