2013-10-15 37 views
0

能夠提取從PDF文件中的文本在相對於特定的字體/字體大小/字體顏色等?我更喜歡perl,python或* nix命令行工具。我的目標是從PDF文件中提取所有標題,因此我將擁有包含在單個PDF中的文章的良好索引。提取文本格式(字體大小,類型等)

回答

1

您可以從Ghostscript的txtwrite設備(嘗試-dTextFormat = 0 | 1選項)以及從mudraw(MuPDF)與-tt獲取的文本和/字體/字體大小/位置(無顏色,如我選中)選項。然後用例如XML解析類似XML的輸出。 Perl的。

+0

謝謝你的回覆。看來,這是泥路。我不喜歡的一個事實是,我無法禁用轉換圖像,我得到了一堆以

+0

@WakanTanka,嘗試用-ttt參數mudraw(也-x值得探討),則有輸出沒有圖像,但文本信息呈現略有不同。Ghostscript的,你的目的,可以這樣用:'GS -sDEVICE = txtwrite -dTextFormat = 0 -o out.txt in.pdf'或-dTextFormat = 1輸出不是 「TXT」,它的XML肥胖型像-ttt選項mudraw – user2846289

+0

我試圖ghostsript(兩者。 0和1),它給我錯誤。'分段錯誤(核心轉儲)'也許我在舊的Fedora上使用舊版本(發現這個我知道bug)。無論如何,輸出看起來類似於使用'mudraw -ttt或mudraw -x'選項(好像每個單個字符都是一個元素)。似乎'mudraw -tt'就是這樣。再次感謝。 –