2016-12-10 44 views
-1

我試圖爲我的主要項目製作一個e發現軟件。任何人都可以建議開源的API提取文件內容並保存到另一種格式或數據庫。我正在考慮從不同的文件中挖掘並將它們保存爲我自己的格式或數據庫。文件類型包括所有辦公室類型文件,電子郵件,pdf。類似於「Stellent」的東西會很好,但是開源。請我找不到任何好的API。.NET api提取不同文件類型的文件內容

+1

https://msdn.microsoft.com/en-us/library/system.io.fileinfo.aspx –

+0

我可以使用它來轉換任何文件類型並保存到數據庫? – nizoodxs

+0

你的問題說*沒有*關於轉換或數據庫。你要求的文件屬性,這個類提供了(最後修改時間等)。見[問]。 –

回答

1

有一個.NET包裝的Apache提卡 - TikaOnDotNet

這從一個大的多種文件類型中提取文本。