我看到很多關於使用C#生成PDF文件的問題和解答。
我有一個相關的,但不同的任務。在C#中編程讀取PDF文件#
我有大量的PDF文件已經創建,我想用正則表達式(RegEx)來驗證內容的某些部分。我想用C#打開PDF文件,並能夠以接近線性的方式讀出文本。
如果頁眉,頁腳,任何側邊欄等被跳過或不按順序讀取,則無關緊要。我儘可能多地檢索主體文本。
您可以指向我的工具,庫,API等,這將使我可以通過編程讀取PDF文件中的文本嗎?
我看到很多關於使用C#生成PDF文件的問題和解答。
我有一個相關的,但不同的任務。在C#中編程讀取PDF文件#
我有大量的PDF文件已經創建,我想用正則表達式(RegEx)來驗證內容的某些部分。我想用C#打開PDF文件,並能夠以接近線性的方式讀出文本。
如果頁眉,頁腳,任何側邊欄等被跳過或不按順序讀取,則無關緊要。我儘可能多地檢索主體文本。
您可以指向我的工具,庫,API等,這將使我可以通過編程讀取PDF文件中的文本嗎?
@Joe:如果你不僅僅發佈鏈接,你會得到更多的讚譽。 – 2010-03-10 03:30:45
的問題是關於閱讀pdf內容,而不是生成。 – 2016-08-16 14:12:39
我已經成功地使用兩個不同的庫用於這一目的。一個是PDF Box(Apache項目的一部分),另一個是Snowtide Informatics。
兩者都是Java庫,但您可以使用.NET和IKVM。
聰明但瘋狂:-) – 2011-08-19 22:01:06
PDFxStream(néePDFTextStream)也作爲一個.NET程序集發佈(由Nick提到,雖然分發已預編譯爲.DLL,但避免了IKVM的運行時解釋 - >編譯步驟用於按原樣使用Java庫)。 – cemerick 2014-11-06 18:51:24
感謝所有的精彩答案。 我很快就會嘗試這些軟件包,並希望在此後不久接受「最佳答案」。 – abelenky 2010-03-11 20:36:27
標記爲不具有建設性 - 但它確實幫助我瞭解可用的東西!如果它不適合問答格式 - 應該在哪裏發佈這類問題? – codeputer 2013-10-29 00:39:27
我建議將其遷移到軟件建議。這個網站就是這種情況。這是一個很好的問題,對許多人來說都非常有幫助,但它並不完全符合SO的格式。 – demongolem 2014-03-11 20:44:19