2
我正在使用Apache PDFBox從幾個PDF文件中提取文本。這些文件使用波蘭語,並且包含波蘭語字符。不幸的是,當我打印提取的文本時,我不斷收到? (問號)而不是那些字符。由PDFBox提取的文本不包含國際(非英文)字符
我正在使用Apache PDFBox從幾個PDF文件中提取文本。這些文件使用波蘭語,並且包含波蘭語字符。不幸的是,當我打印提取的文本時,我不斷收到? (問號)而不是那些字符。由PDFBox提取的文本不包含國際(非英文)字符
假設你提取文本存儲在一個String,我假設你正在使用這種打印 -
System.out.println(s);
我建議你使用這個代碼段用於打印出波蘭字符properly-
java.io.PrintStream p = new java.io.PrintStream(System.out,false,"UTF-8");
p.println(s);
這應該工作嗎?將不會出現在打印文本中。
其實,我使用的是System.out和log4j。但是,您的答案解決了我的問題!謝謝! – Lukasz 2012-07-15 23:33:00