2017-08-04 125 views
0

我在.tar文件中的文件.tar文件pdf文檔包含,我能夠成員從##。tar文件中提取,並且我也使用蒂卡解析器解析PDF文件,收到文件未找到錯誤。如何讀取使用python

with tarfile.open(os.path.join(DEFAULT_PATH,filename), "r") as tarf: 
    for members in tarf.getmembers(): 
     f = tarf.extractfile(members) 
     parsed_pdf = parser.from_file(f) 

,我不想提取PDF中的另一個目錄,並從.tar文件剛讀

回答

0

能夠通過使用下面的代碼上面的解決

 for members in tarf.getnames()[1:]: 

      tarf.extract(members, './full_text') 
      parsed_pdf = parser.from_file(os.path.join(DEFAULT_PATH,filename))