2009-05-26 86 views
13

我想寫一個腳本來自動重命名下載的文件和他們的標題,我想知道是否有任何圖書館或技巧我可以使用?這些PDF都是由TeX生成的,並且應該有一些「正式的」結構。從PDF文件中提取標題?

+0

你在哪裏得到的PDF文件標題標題?該信息是否需要從PDF文檔屬性或PDF內容中提取,或者您是否從其他來源提取該信息? – Rowan 2009-05-27 04:27:51

+0

[提取研究論文的PDF信息]的可能重複(http://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers) – Seanny123 2017-01-11 06:53:40

回答

13

您可以嘗試使用pyPdfthis example

例如:

from pyPdf import PdfFileWriter, PdfFileReader 

def get_pdf_title(pdf_file_path): 
    with open(pdf_file_path) as f: 
     pdf_reader = PdfFileReader(f) 
     return pdf_reader.getDocumentInfo().title 

title = get_pdf_title('/home/user/Desktop/my.pdf') 
0

假設所有這些論文都是從的arXiv,你可以改爲提取的arXiv ID(我猜搜索PDF文本中的「arXiv:」將始終顯示該ID爲第一次打擊)。

一旦你擁有了的arXiv參考號(和已經做了pip install arxiv),你可以使用

paper_ref = '1501.00730' 
arxiv.query(id_list=[paper_ref])[0].title