2011-08-11 89 views
2

我期待在以下網址: http://www.unisonagency.com/assets/news/unison_pr_mvsl.pdf奇怪的PDF文本提取情況

所有的開源文本提取工具我試過了,給我的標題如下:

uNISON LAuNCHeS MAGHReb VIRTuAL SCIeNCe LIbRARy: A NeW 
PORTAL PROMOTING INTeRNATIONAL SCIeNTIFIC AND 
TeCHNICAL COLLAbORATION 

然而,Adobe Acrobat Reader給出了一些更合理的東西 -

Unison Launch es Maghr eb Virt ual Sci enc e 
Librar y: A New Portal Promoting Int ernational 
Scientific and Technical Colla boration 

空格關閉,但字符外殼更有意義。任何想法爲何存在差異?

回答

-2

字體在文檔中描述。文本提取工具將描述解釋錯誤或根據字符代碼進行假設。 Adobe產品以其他方式執行此操作並將其正確解釋。

3

顯然,這是一個「標記內容」流的示例,其中BDC/EMC操作員用於使用「ActualText」屬性註釋流,這就是正確的文本所在的位置。

根據PDF 32000-1中的7.9.2.2,文本本身位於UTF-16BE或PDFDocEncoding中:2008