所以我想從PDF文件中提取某些內容。所以它是一張發票,我希望能夠在PDF文件中搜索單詞「發票號碼」,然後選擇「名字」並將它們解壓縮到用iTextSharp解析PDF,然後提取特定的文本到屏幕
Console.WriteLine();
所以目前這是我得到的,我需要弄清楚如何進一步移動。
using iTextSharp.text.pdf;
using System.IO;
using iTextSharp.text.pdf.parser;
using System;
namespace PdfProperties
{
class Program
{
static void Main(string[] args)
{
PdfReader reader = new PdfReader("C:/PDF/invoiceDetail.pdf");
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
FileStream fs = new FileStream("C:/PDF/result0.txt", FileMode.Create);
StreamWriter sw = new StreamWriter(fs);
SimpleTextExtractionStrategy strategy;
string text = "";
for (int i = 1; i <= reader.NumberOfPages; i++)
{
strategy = parser.ProcessContent(i, new SimpleTextExtractionStrategy());
sw.WriteLine(strategy.GetResultantText());
text = strategy.GetResultantText();
String[] splitText = text.Split(new char[] {'.' });
Console.WriteLine("Test");
Console.WriteLine(text);
}
sw.Flush();
sw.Close();
}
}
}
任何幫助,將不勝感激
貴控制檯輸出包含所需的發票號碼和名字? – mkl
您需要pdf2Data插件來執行此操作。該附加組件是封閉源代碼(其中包括許多人認爲他們可以在商業環境中免費使用iText)。有關pdf2Data的更多信息,請參閱http://itextpdf.com/itext7/pdf2Data。 –