2013-07-19 29 views
0

我目前正在構建一個文檔共享平臺,爲了吸引儘可能多的用戶,我希望已經爲我的平臺添加了10 000個文檔。這些文件只是PDF文件。我正在與Symfony2合作,但我想這對問題沒有多大改變:我怎樣才能自動從這些文檔中提取我需要的元數據(例如,標題,前100個字的描述)並將其插入我的數據庫(在我的情況下,水合成我的實體,但我知道這一部分)。如何從10 000 PDF文檔中提取元數據並將其存儲在我的數據庫中?

我想爬行是我正在尋找,但我不知道在哪裏可以找到像這樣的東西,也不知道如何使它工作。

在此先感謝!

+0

你試過什麼?你在說什麼「文件」?我可以告訴你,如果你的意思是一般的文件,沒有通用的方法來獲取這些信息。這取決於文檔類型即。 '* .txt','* .doc','* .docx','* .rtf','* .pdf'等圖像,視頻或excel表單都是文檔,所以您將有很多工作; ) –

+0

現在,我還沒有嘗試過任何東西,我試圖看到所有可用的選項。我會編輯以提供有關文件的詳細信息,您當然是對的,我應該早些詳細說明^^ – Baralai

+0

,您應該嘗試過一些東西!這不是「給我工作代碼」 - 平臺它更像是「我在哪裏犯了一個錯誤」-platform;) –

回答

1

以及你沒有一個真正的問題:

  • 定義你允許什麼文件類型/格式
  • 谷歌如何讀取用PHP每種文檔類型(PHP函數,庫,代碼-snippets)
  • 確定載的文件的文件類型
  • 閱讀PHP文件使用谷歌搜索funcs中,庫等

當你完成了所有這些,然後有一個具體的問題:問一個真正的問題;)

+0

我不太瞭解你對這個問題的態度。你在文檔格式上是正確的,我編輯了你的觀點。 我知道如何閱讀PHP中的PDF文件。我的問題是,我不知道如何啓動掃描文件並將數據添加到數據庫的自動過程。正如問題所述。 – Baralai

+0

你的意思是自動的?你可能想在linux上創建一個cronjob或者在Windows上創建一個計劃任務。使用(遞歸)目錄迭代器或glob來查找文件;) –

+0

我的意思是我不想通過我的上傳表單處理每個文檔。 基本上,我正在尋找一種方法,讓我的所有文檔都可以在我的數據庫中註冊,而無需通過我的表單逐個處理它們,這需要很長時間。 – Baralai

相關問題