我有這段代碼,我正在使用它來獲取PDF文本。這對使用英文的PDF格式非常有用,但是當我嘗試用阿拉伯語提取文本時,它會顯示出類似這樣的內容。使用itextsharp在c#中提取阿拉伯語文本
「)+ N 9 N < +,+)+ $#$ + $ F%9 & < $:;」。
using (PdfReader reader = new PdfReader(path))
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
String text = "";
for (int i = 1; i <= reader.NumberOfPages; i++)
{
text = PdfTextExtractor.GetTextFromPage(reader, i,strategy);
}
這看起來像PDF不包含根據pdf規範提取文本所需的信息。 – mkl
你試過這個http://stackoverflow.com/questions/35436158/itextsharp-cant-extract-pdf-unicode-content-in-c-sharp? – KMoussa
沒有有很多的話,但iTextSharp的代碼用阿拉伯文寫着 –