ItextSharp - 撥號字符

-1

我通過ItextSharp庫閱讀pdf文檔。但這些文件是捷克語使用變音符號（řěššč等）我怎樣才能讀這個字符？任何想法？或者，是否有一些解決方案將這些字符替換爲正常的r e z s c？這是我的方法中的代碼。謝謝ItextSharp - 撥號字符

PdfReader reader = new PdfReader("M:/ShareDirs_KSP/RDM_Debtors/DMS_PROD/" + src); 

    // we can inspect the syntax of the imported page 
    String text = new String(); 
    for (int page = 1; page <= 1; page++) { 

     text += PdfTextExtractor.getTextFromPage(reader, page); 
    } 

    reader.close();

來源

2014-10-31 Edák Edák

如果PDF創建正確，那麼應該正確解析字符。您使用的是哪種版本的iText？ PDF中的字體是作爲簡單字體還是複合字體存儲的？如果你不知道區別，請閱讀http://stackoverflow.com/questions/26631815/cant-get-czech-characters-while-generating-a-pdf。 – 2014-10-31 09:10:41

我有5.5.2版本。我不寫，但我只是閱讀。我可以在哪裏設置編碼？ – 2014-10-31 09:21:27

我已經寫了一個小的概念驗證文件解析文件czech.pdf。這個文件包含幾個帶有變音符的字符。它創建回答以下問題：Can't get Czech characters while generating a PDF

文本存儲在文件中兩次：一次使用簡單字體，一次使用複合字體。在我的概念（名爲ParseCzech）的證明，我分析這個PDF使用UTF-8（UNICODE）編碼的文件：

public void parse(String filename) throws IOException { 
    PdfReader reader = new PdfReader(filename); 
    FileOutputStream fos = new FileOutputStream(DEST); 
    for (int page = 1; page <= 1; page++) { 
     fos.write(PdfTextExtractor.getTextFromPage(reader, page).getBytes("UTF-8")); 
    } 
    fos.flush(); 
    fos.close(); 
}

結果是文件czech.txt：

enter image description here

由於您可以從屏幕截圖中看到正確提取文本（但要確保您使用的查看器知道文件編碼爲UTF-8，否則您可能會看到奇怪的字符而不是實際的文本）。

請注意，某些PDF不允許正確提取文本。這在以下視頻中進行了解釋：

請分享您的PDF，以便StackOverflow上的人員可以檢查您是否因爲代碼中的錯誤而無法成功提取文本，或者您是否因爲PDF不允許您提取文本。

來源

2014-10-31 09:34:22

不幸的是，這些文檔包含非常祕密的信息（有法院發送）我添加.getbytes（「UTF-8」），但我的文本變量只包含「[B @ 1d14147」：/ – 2014-10-31 10:05:51

如果您是客戶，可以共享與NDA簽署的付費支持團隊的文件。如果您是用戶，爲什麼不使用RUPS查看文檔？如果文檔包含祕密信息，則文字可能會被故意混淆，在這種情況下，您將無法提取它。如果你想了解我的意思，請觀看視頻。 – 2014-10-31 10:33:39

*我的文本變量只包含「[B @ 1d14147」* - 看起來您的文本變量是一個字節數組，您嘗試按原樣或其toString值打印。這顯然是行不通的。 – mkl 2014-10-31 20:33:47

ItextSharp - 撥號字符

回答

相關問題