任何人都可以幫助從PDF頁面中提取文本?如何從pdf頁面使用Zend_Pdf提取文本
<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];
我會假設頁面方法會存在,但我找不到任何東西讓我提取內容。
例如:$ page-> getContents(); $ PAGE->的toString(); $ PAGE-> extractText();
...幫助!!!!這真讓我抓狂!
任何人都可以幫助從PDF頁面中提取文本?如何從pdf頁面使用Zend_Pdf提取文本
<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];
我會假設頁面方法會存在,但我找不到任何東西讓我提取內容。
例如:$ page-> getContents(); $ PAGE->的toString(); $ PAGE-> extractText();
...幫助!!!!這真讓我抓狂!
從the manual它似乎不支持此功能。此外,新文本使用drawText() function編寫,它似乎寫入圖像,而不是簡單的「可解碼」文本。
它確實寫了'文字'而不是圖像,但你肯定是正確的,在此刻的部分PDF不能被提取或修改。 – 2010-03-22 22:11:32
我同意安迪,這似乎並不支持。作爲替代,請看Shaun Farrell's solution to extracting text from a PDF for use with Zend_Search_Lucene。他使用XPDF,這可能也會滿足您的需求。
xpdf將從PDF中提取文本,只要您的PDF實際上包含文本(與掃描圖像相對)。另一方面,您也可以嘗試以下內容:http://www.webcheatsheet.com/php/reading_clean_text_from_pdf.php。 – wimvds 2010-03-26 12:28:11
上面的鏈接已經死了,雖然我發現有幾個頁面鏈接到它,但我找不到其他的源代碼。我能夠使用pdftotext來提取我需要的信息,以防別人跑過這篇文章。 – 2012-05-09 14:36:53
http://stackoverflow.com/questions/5496191/php-pdf-2-text-problem希望這會有所幫助 – Varshaan 2016-10-28 15:07:37