我目前正在構建一個文檔共享平臺,爲了吸引儘可能多的用戶,我希望已經爲我的平臺添加了10 000個文檔。這些文件只是PDF文件。我正在與Symfony2合作,但我想這對問題沒有多大改變:我怎樣才能自動從這些文檔中提取我需要的元數據(例如,標題,前100個字的描述)並將其插入我的數據庫(在我的情況下,水合成我的實體,但我知道這一部分)。如何從10 000 PDF文檔中提取元數據並將其存儲在我的數據庫中?
我想爬行是我正在尋找,但我不知道在哪裏可以找到像這樣的東西,也不知道如何使它工作。
在此先感謝!
你試過什麼?你在說什麼「文件」?我可以告訴你,如果你的意思是一般的文件,沒有通用的方法來獲取這些信息。這取決於文檔類型即。 '* .txt','* .doc','* .docx','* .rtf','* .pdf'等圖像,視頻或excel表單都是文檔,所以您將有很多工作; ) –
現在,我還沒有嘗試過任何東西,我試圖看到所有可用的選項。我會編輯以提供有關文件的詳細信息,您當然是對的,我應該早些詳細說明^^ – Baralai
,您應該嘗試過一些東西!這不是「給我工作代碼」 - 平臺它更像是「我在哪裏犯了一個錯誤」-platform;) –