我使用ITextSharp和列出的代碼從pdf中提取文本。 但我發現,一些行給我的不正確的結果:IText夏普從pdf提取文本與法文腳本MT
-
在Excel
- - 「11 3 11」 在Visual Studio
- - 「11 \ u0085 \ u0014 \ u0016 \ u001c 3月11日」
- 在PDF - 「11£139 3 11」
再舉一個例子:
-
在Excel
- - 「2 45 1」
- 在Visual Studio - 「2 \ u0085 \ u0019 \ u0018 \ u001b 45 1」 以PDF
- - 「2£658 45 1」
調查後,我發現,PDF文件包含 法國腳本-mt-58fbba579ea99.ttf
using (PdfReader reader = new PdfReader(pfile.path)){
StringBuilder text = new StringBuilder();
if (pagenum == 0)
{
for (int i = 1; i <= reader.NumberOfPages; i++)
{
string page = "";
page = PdfTextExtractor.GetTextFromPage(reader, i, new
iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy());
string stringOutput = page;
string[] lines = stringOutput.Split('\n');
allData.Add(lines);
output = lines;
}
}
}
問題:
- 我怎樣才能補充一點,我已經裝提取策略字體?
- 是否可以創建映射,以便我可以將\ u0085 \ u0014 \ u0016 \ u001c轉換爲£139?
- 也許我錯過了一些編碼?
你可以分享PDF格式的檢查嗎? excel與pdf有多相關? – mkl
這裏是pdf文件的一部分(它將在線30天) [pdfFile](https://ufile.io/ce0yy) 我已經創建了PDF文件的解析器,因此我可以分析數據和結構本身,我只是使用Microsoft.Office.Interop將所有解析的文本放到Excel中。 這段法文是我工作的瓶頸。 – Vitalii