uwenku
標簽列表
pdf-extraction
0
熱度
1
回答
從pdf中正確提取文本(UTF-8)
我想從某些pdf文件中提取文本(以編程方式,使用一些實用工具甚至複製/粘貼),但某些字符出來真的很奇怪。儘管我在提取文本時指定了UTF-8編碼,但「ş,ţ,ă」等字符看起來像「」˛「而不是」s,t,a「(或至少顯示的字符)。 文本顯示正確,但當我嘗試複製它時,例如,這些字符不正確。 有什麼方法可以正確提取文本,或者這些pdf文件是以某種方式損壞的(java/C/python等或windows/li
pdf
text
utf-8
text-extraction
pdf-extraction
2012-05-18
3
熱度
4
回答
iText - 獲取文本段的字體大小和族
我正在嘗試從PDF文件中自動提取重要的關鍵字。我能夠從PDF文檔中獲取文本信息。但是現在我需要知道,這些關鍵字具有哪種字體大小和字體系列。 下面的代碼我已經有: 主要 public static void main(String[] args) throws IOException { String src = "SEM_081145.pdf"; PdfReader read
java
pdf
itext
text-extraction
pdf-extraction
2012-06-04
0
熱度
1
回答
pdf解析爲文本使用java
我有同樣的問題從pdf文件中提取阿拉伯文本, 任何人都可以幫助如果得到解決方案??? 我已經嘗試了很多次,但沒有結果。
java
arabic
pdf-extraction
2011-12-05
«
1
2
»
最新問題
1.
如何在模型從數據庫更新後保持實體代碼不變?
2.
訪問從OpenCV的函數C++ NDK
3.
在啓動時將/etc/profile.d/中的腳本作爲根執行?
4.
試圖基於另一個數據透視一列
5.
MongoDB Native Node.js問題
6.
Tensorflow和CUDA版本
7.
是什麼,如果我可以通過安裝搬運工引擎
8.
優化:值替換在數據幀wiith多個條件
9.
RxJava而不是改造回調
10.
如何將php關聯數組排序爲特定順序?