如何從10 000 PDF文檔中提取元數據並將其存儲在我的數據庫中？

我目前正在構建一個文檔共享平臺，爲了吸引儘可能多的用戶，我希望已經爲我的平臺添加了10 000個文檔。這些文件只是PDF文件。我正在與Symfony2合作，但我想這對問題沒有多大改變：我怎樣才能自動從這些文檔中提取我需要的元數據（例如，標題，前100個字的描述）並將其插入我的數據庫（在我的情況下，水合成我的實體，但我知道這一部分）。如何從10 000 PDF文檔中提取元數據並將其存儲在我的數據庫中？

我想爬行是我正在尋找，但我不知道在哪裏可以找到像這樣的東西，也不知道如何使它工作。

在此先感謝！

來源

2013-07-19 Baralai

你試過什麼？你在說什麼「文件」？我可以告訴你，如果你的意思是一般的文件，沒有通用的方法來獲取這些信息。這取決於文檔類型即。 '* .txt'，'* .doc'，'* .docx'，'* .rtf'，'* .pdf'等圖像，視頻或excel表單都是文檔，所以您將有很多工作; ） –

現在，我還沒有嘗試過任何東西，我試圖看到所有可用的選項。我會編輯以提供有關文件的詳細信息，您當然是對的，我應該早些詳細說明^^ – Baralai

，您應該嘗試過一些東西！這不是「給我工作代碼」 - 平臺它更像是「我在哪裏犯了一個錯誤」-platform;） –

以及你沒有一個真正的問題：

定義你允許什麼文件類型/格式
谷歌如何讀取用PHP每種文檔類型（PHP函數，庫，代碼-snippets）
確定載的文件的文件類型
閱讀PHP文件使用谷歌搜索funcs中，庫等

當你完成了所有這些，然後有一個具體的問題：問一個真正的問題;）

來源

2013-07-19 09:29:17

我不太瞭解你對這個問題的態度。你在文檔格式上是正確的，我編輯了你的觀點。我知道如何閱讀PHP中的PDF文件。我的問題是，我不知道如何啓動掃描文件並將數據添加到數據庫的自動過程。正如問題所述。 – Baralai

你的意思是自動的？你可能想在linux上創建一個cronjob或者在Windows上創建一個計劃任務。使用（遞歸）目錄迭代器或glob來查找文件;） –

我的意思是我不想通過我的上傳表單處理每個文檔。基本上，我正在尋找一種方法，讓我的所有文檔都可以在我的數據庫中註冊，而無需通過我的表單逐個處理它們，這需要很長時間。 – Baralai

如何從10 000 PDF文檔中提取元數據並將其存儲在我的數據庫中？

回答

相關問題