2012-11-21 178 views
0

我知道有很多PDF提取方法/技巧,但是我在PHP中使用了可靠的文本提取器。我只想提取單詞,但不包括數字和特殊字符。如何使用PHP從PDF文件中提取文本?

實現這一目標的堅實技術的任何想法?

+0

成功很大程度上取決於特定的PDF文檔。單詞可以嵌入到PDF中的圖像中,或者可以從文檔的不同部分中保存的組件中組合。你能指出一個具有代表性的例子嗎? – wallyk

+0

我不想從圖像中獲取文本,我只需要在PDF文檔中選擇的文本,簡單的想法,但是有沒有具體的預製解決方案?如果不是,創建這樣一個腳本的步驟是什麼? – cwiggo

回答

2

Zend Framework提供Zend_Pdf,這是一個php類,它將加載和解析pdf文檔。

Here is a script顯示如何從加載的Zend_Pdf對象中提取文本。

+0

感謝您的建議,我知道那裏沒有一個石頭冷的解決方案,但你的答案是最有建設性的!乾杯,C – cwiggo

相關問題