我想寫一個腳本來自動重命名下載的文件和他們的標題,我想知道是否有任何圖書館或技巧我可以使用?這些PDF都是由TeX生成的,並且應該有一些「正式的」結構。從PDF文件中提取標題?
13
A
回答
13
您可以嘗試使用pyPdf和this example。
例如:
from pyPdf import PdfFileWriter, PdfFileReader
def get_pdf_title(pdf_file_path):
with open(pdf_file_path) as f:
pdf_reader = PdfFileReader(f)
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('/home/user/Desktop/my.pdf')
2
我可能會從perl開始(因爲它總是我第一件事)。有several modules for handling PDFs。如果你有一致的結構,你可以使用正則表達式來獲取標題。
2
0
假設所有這些論文都是從的arXiv,你可以改爲提取的arXiv ID(我猜搜索PDF文本中的「arXiv:」將始終顯示該ID爲第一次打擊)。
一旦你擁有了的arXiv參考號(和已經做了pip install arxiv
),你可以使用
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title
相關問題
- 1. 如何從.pdf文件中使用c提取標題#
- 2. 從PHP中通過URL從PDF文檔中提取標題
- 3. 從PDF中提取標籤
- 4. 從pdf文件中提取文本
- 5. 從pdf文件中提取文本
- 6. 從PDF文件中提取文本
- 7. 從PDF文件中提取文本
- 8. 如何從pdf文件中提取文本和文本座標?
- 9. 從PDF中提取實際的文本標題
- 10. 從PDF文件中提取頁碼
- 11. c#從pdf文件中提取數據
- 12. 從pdf文件中提取圖片
- 13. 提取座標轉換爲PDF文件
- 14. 如何從PHP中的加密PDF中提取標題?
- 15. 從PDF文件提取圖層爲HTML
- 16. 從PDF文檔中提取文本 - C#
- 17. 目標C中提取pdf文本
- 18. 從HTML文本提取標題文本
- 19. 使用Pandas從文本文件中提取標題數據
- 20. 如何使用Powershell從.msg文件中提取郵件標題?
- 21. nutch只提取pdf文件
- 22. 從pdf中獲取pdf文件嵌入
- 23. 在java中使用Apache Tika從PDF文件中提取文本
- 24. 如何從Python中的PDF文件中提取文本?
- 25. 從PDF中裁剪和提取文本
- 26. 從PDF中提取文本內容
- 27. 從pdf中提取文本到c#
- 28. 從PDF中提取文本位置
- 29. 用Poppler(C++)從PDF中提取文本
- 30. iPhone:如何從文檔中獲取PDF文檔的標題?
你在哪裏得到的PDF文件標題標題?該信息是否需要從PDF文檔屬性或PDF內容中提取,或者您是否從其他來源提取該信息? – Rowan 2009-05-27 04:27:51
[提取研究論文的PDF信息]的可能重複(http://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers) – Seanny123 2017-01-11 06:53:40