2011-07-14 79 views
1

我的需求很簡單,我需要一個工具或庫(圖書館將是完美的),將PDF文件轉換爲HTML文件,儘可能多地保存信息,除了任何圖像或樣式,僅僅是語義信息。開源庫/將PDF轉換爲HTML的工具?

我已經簽出iTextPdf,但我還沒有找到像這樣的東西。你能幫忙的話,我會很高興。

在此先感謝

+0

這個問題只被問了幾十次了。來吧人們。 –

+0

可能的重複[在HTML中轉換HTML到PDF](http://stackoverflow.com/questions/564650/convert-html-to-pdf-in-net) –

+11

來吧人。當被問及PDF到HTML時,請停止將HTML推薦到PDF。 – Bobrovsky

回答

4

使用iTextSharp。它是免費的,你只需要「itextsharp.dll」。

http://sourceforge.net/projects/itextsharp/

這裏是閱讀的文本了PDF的簡單功能。

Public Shared Function GetTextFromPDF(PdfFileName As String) As String 
    Dim oReader As New iTextSharp.text.pdf.PdfReader(PdfFileName) 

    Dim sOut = "" 

    For i = 1 To oReader.NumberOfPages 
     Dim its As New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy 

     sOut &= iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(oReader, i, its) 
    Next 

    Return sOut 
End Function