1
讀表我的工作將PDF轉換爲文本。我可以正確地從PDF中獲取文本,但它在表格結構中很複雜。我知道PDF不支持表結構,但我認爲有一種方法可以正確獲取單元格。嗯,比如說:iTextSharp的如何在PDF文件
我想轉換爲文本是這樣的:
> This is first example.
> This is second example.
但是,當我將PDF轉換爲文本,theese DATAS看起來像這樣:
> This is This is
> first example. second example.
如何正確獲取值?
- 編輯:
下面是我怎麼將PDF轉換爲文本:
OpenFileDialog ofd = new OpenFileDialog();
string filepath;
ofd.Filter = "PDF Files(*.PDF)|*.PDF|All Files(*.*)|*.*";
if (ofd.ShowDialog() == DialogResult.OK)
{
filepath = ofd.FileName.ToString();
string strText = string.Empty;
try
{
PdfReader reader = new PdfReader(filepath);
for (int page = 1; page < reader.NumberOfPages; page++)
{
ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.LocationTextExtractionStrategy();
string s = PdfTextExtractor.GetTextFromPage(reader, page, its);
s = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(s)));
strText += s;
}
reader.Close();
}
catch (Exception ex)
{
MessageBox.Show(ex.Message);
}
}
能否請您分享您所使用的檢索文字的代碼? – Bassie
@Bassie謝謝,我更新了我的帖子。 – pseudocode
看起來這是不可能的,默認情況下,檢查這個可能的解決方案:http://stackoverflow.com/questions/7513209/using-locationtextextractionstrategy-in-itextsharp-for-text-coordinate/7515625#7515625 – Bassie