我正在開發使用Python Flask framework將處理PDF文檔網站。我將PDF文件存儲在MongoDB中,當我需要爲訪問用戶提供服務時,該文件運行良好。我現在需要做一些文字和圖片萃取,我使用pdfminer library。當我使用pdf2txt.py,並提供從文件系統中的文件,這條線(context here)的作品幾乎瞬間:從文件讀取和MongoDB GridFS的區別?
for page in PDFPage.get_pages(file('ticket.pdf', 'rb'), pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True): pass
但是當我編輯的代碼,使我公司提供的GridFS對象從我的MongoDB,第二行(打完retreiving完)需要大約8秒成功(結果是相同的,上面的代碼):
document = UserDocument.objects.first()
for page in PDFPage.get_pages(document.file_, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True): pass
這樣的驚喜我,因爲我假設,從我的MongoDB取一個文件或採取它從文件系統中返回一個e質量結果(它在瀏覽器中呈現相同),但顯然它不一樣。
有誰知道這兩者之間的區別是什麼導致這個呼叫這麼長的時間,更重要的是如何解決的呢?歡迎所有提示!