提取文本格式（字體大小，類型等）

能夠提取從PDF文件中的文本在相對於特定的字體/字體大小/字體顏色等？我更喜歡perl，python或* nix命令行工具。我的目標是從PDF文件中提取所有標題，因此我將擁有包含在單個PDF中的文章的良好索引。提取文本格式（字體大小，類型等）

來源

2013-10-15 Wakan Tanka

您可以從Ghostscript的txtwrite設備（嘗試-dTextFormat = 0 | 1選項）以及從mudraw（MuPDF）與-tt獲取的文本和/字體/字體大小/位置（無顏色，如我選中）選項。然後用例如XML解析類似XML的輸出。 Perl的。

來源

2013-10-16 08:38:31 user2846289

謝謝你的回覆。看來，這是泥路。我不喜歡的一個事實是，我無法禁用轉換圖像，我得到了一堆以

@WakanTanka，嘗試用-ttt參數mudraw（也-x值得探討），則有輸出沒有圖像，但文本信息呈現略有不同。Ghostscript的，你的目的，可以這樣用：'GS -sDEVICE = txtwrite -dTextFormat = 0 -o out.txt in.pdf'或-dTextFormat = 1輸出不是「TXT」，它的XML肥胖型像-ttt選項mudraw – user2846289

我試圖ghostsript（兩者。 0和1），它給我錯誤。'分段錯誤（核心轉儲）'也許我在舊的Fedora上使用舊版本（發現這個我知道bug）。無論如何，輸出看起來類似於使用'mudraw -ttt或mudraw -x'選項（好像每個單個字符都是一個元素）。似乎'mudraw -tt'就是這樣。再次感謝。 –

提取文本格式（字體大小，類型等）

回答

相關問題