我正在嘗試閱讀this使用C#中的itextsharp進行PDF轉換,將PDF轉換爲word文件。還需要維護表格格式和字體 當我嘗試使用英文pdf時,它會完美的工作,但使用一些印度語言,如印地文,馬拉地語它不工作。使用itextsharp閱讀PDF,其中PDF語言非英語
public string ReadPdfFile(string Filename)
{
string strText = string.Empty;
StringBuilder text = new StringBuilder();
try
{
PdfReader reader = new PdfReader((string)Filename);
if (File.Exists(Filename))
{
PdfReader pdfReader = new PdfReader(Filename);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{ ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
text.Append(currentText);
pdfReader.Close();
}
}
}
catch (Exception ex)
{
MessageBox.Show(ex.Message);
}
textBox1.Text = text.ToString();
return text.ToString(); ;
}
不幸的是,你只是說*它不工作*,但沒有出錯。儘管如此,當用Acrobat Reader從文檔中複製和粘貼時,我會看到明顯與原始PDF內容不同的字符。由於Acrobat Reader具有相當不錯的文本提取機器,我認爲PDF中的印度語文本並不包含文本提取所需的所有必要信息,而不是OCR。 – mkl
@mkl感謝您的回覆問題是它正在讀字मतदरर實際的詞是मतद|र。這正在發生在pdf中的所有單詞。所以這個詞的實際意義就改變了。你對這個問題有什麼建議? –
我會看看PDF。但是即使Adobe閱讀器沒有正確地從PDF中提取文本,我認爲PDF中的印度語文本並不包含文本提取所需的所有必要信息,而不是OCR。 – mkl