2016-10-08 52 views
0

我遇到了PDFBox,java庫的問題。我正在嘗試使用pdf的結構,並在不丟失信息的情況下使用PDPage.getContents()而不是文本剝離器。PDFBox得到縮略語的含義

問題是,它顯示了很多縮寫和數字等內容,我無法在網站上找到解釋。

一個例子:

BT 
0.001 Tc 
1.2045 TL 
9.9626 0 0 9.9626 53.04069 571.90505 Tm 
[(con)26.6(t)4.4(aining)-378.3(their)-378.2(a)-4.9(sso)-29(ciated)-358.9(eigen)26.6(v)59(alues)] TJ 
ET 
BT 
0 Tc 
0 TL 
/F8 1 Tf 
9.9626 0 0 9.9626 226.08209 571.90505 Tm 
[(\012)] TJ 
ET 
BT 
/F11 1 Tf 
6.9738 0 0 6.9738 231.84 570.465 Tm 
[(d)] TJ 
ET 
BT 
0.0002 Tc 
/F5 1 Tf 
9.9626 0 0 9.9626 236.64 571.905 Tm 
[(,)-372.5(i)0.9(n)-383.8(d)1.7(escending)-379.1(o)-5.7(r)-5.6(der)-5.6(.)-360.4(Beca)-5.7(use)-362.4(t)3.6(he)] TJ 
ET 
BT 
-0.0008 Tc 
1.2045 TL 
9.9626 0 0 9.9626 53.04024 559.90505 Tm 
[(co)17.4(v)57.2(a)-6.7(r)-6.6(i)-0.1(a)-6.7(n)0.7(ce)-267(ma)-6.7(tr)-6.6(ix)-280(is)-280.9(symmetr)-6.6(ic)-279.1(a)-6.7(n)0.7(d)-288.4(s)-3.8(emip)-23.4(o)-6.7(s)-3.8(itiv)21.1(e)-279.1(d)0.7(e「nite,)-289.1(t)2.6(he)-291.1(eig)-6.7(e)-2(n)24.8(v)21.1(ecto)-6.7(r)-6.6(s)-256.8(a)-6.7(r)-6.6(e)] TJ 
ET 

我能翻譯一些簡單明顯的人的(ET =最終文本,BT =開始文本),但基本上一切我不能肯定。 「音節」旁邊的數字似乎正在做某件事。

我特別感興趣的是/ F5,/ F7,..;他們似乎與其後面的文本格式有關,但只知道這對於一般的pdf分析並不能真正幫助,我需要獲得更多的信息。

我很樂意接受任何可能有用的信息。 預先感謝您:)

+1

問問題最難的部分是問什麼問題。不要問這些縮寫是什麼意思,爲什麼你不把問題改寫爲「我怎樣才能得到可用的/可讀的pdf表示」......我相信pdfbox的貢獻者在解釋這些縮寫時也遇到了困難,並且發現一種讓他們可讀的方法。 .....或者也許只是閱讀文檔? – baao

回答

1

最好的地方是在PDF 32000 specification或頁面645的附錄A(左邊)「操作員彙總」。一開始,我一直使用它。

在您的示例中,「Tf」是「選擇字體」。要查找字體是什麼,請使用PDFDebugger在資源字典中查找名稱,或者將鼠標光標懸停在「Tf」上並等待顯示字體名稱。這裏有一個例子:

enter image description here

所以/ TT2是宋體,加粗字體子集。

+0

非常感謝你! – Dominus