2015-11-01 84 views
0

我有一個PDF教科書具有數學公式是這樣的:Sample PDF利用iText提取從PDF數學文本

但是,如果我嘗試簡單的文本提取我得到的線沿線的東西: V(R)= - 3 - - 2R R2 這不是圖像,它是文本,但我不知道如何保留它的外觀,並將實際字符轉換爲文本文件。

+0

這是一箇舊鏈接,但我猜測它仍然是true:「iText不是TeX。 在TeX你有運營商繪製這樣的公式。 在iText中,你必須自己繪製所有東西。「:http://itext.2136553.n4.nabble.com/Display-mathematical-formula-using-iText-td2151852.html。建議:用[iText RUPS]檢查.pdf內容(http://sourceforge.net/projects/itextrups/) – paulsm4

+0

我不熟悉postscript,它是一種格式的itext可以導出pdf數據嗎? –

+0

[「Postscript」](https://en.wikipedia.org/wiki/PostScript)基本上是.pdf中的「P」([Portable Document Format](https://en.wikipedia.org/wiki/Portable_Document_Format) ))。 – paulsm4

回答

2

您遇到的問題是經常遇到的問題。 PDF基本上不關心結構。它沒有列,段落,一行文本甚至一個詞的概念,更不用說有很多特殊格式的數學公式。

PDF - 本質上 - 只關心在特定位置的頁面上放置東西。這也正是它對你的公式所做的,它會使用你的公式需要的字符和圖形,並把它們放在頁面上的某個地方。如果沒有任何額外的知識,你可以使用後來發現這些字符和圖形甚至屬於公式;更不用說在進行文本提取時重建它。

另外有兩點:

1)如果您共享這樣一個PDF文檔的例子,我們可以看看是否有可能被用在更有能力來提取這個公式在它的一些有用的信息辦法;但機會接近於零。

2)您也必須從您的角度定義「有用的方式」。公式不能很好地轉換爲純文本文件,因此您可能需要類似MathML的內容來存儲它們。

+0

我明白了。有沒有辦法以某種方式將pdf中的這一部分/公式作爲圖像打印出來?有沒有一個函數庫可以讓我以某種方式爲它提供座標,而文本通常位於頁面上,並返回一個圖像?我有什麼選擇? –

+0

你最好的選擇是下載iText RUPS(或類似的工具),看看問題中的元素是如何編碼的...... PS:是的,Postscript和PDF是「不同的」。對於初學者來說,後者是一種文檔格式,前者是一種語言。但他們之間的關係非常密切。他們都來自同一個供應商。海事組織,他們非常* * *「來自同一堆」。這裏有一個鏈接,進一步解釋:http://adobe.com/print/features/psvspdf – paulsm4

+0

你一定能找到能夠將PDF文檔的一部分轉換成圖像的庫。面臨的挑戰是找到哪個頁面的哪個部分是您想要提取的圖像,而不是您想要作爲文本提取的文本。如果你對格式有所瞭解(如果它在某種意義上是固定的佈局),這可以完成。如果你有沒有固定佈局的任意PDF文件,這將是幾乎不可能的(或至少真的很難)。 –