2011-06-28 140 views
0

我想從PDF文件中的文本與此代碼,但它返回象下面這樣編碼的文本: -閱讀和PDF文件搜索

$fp = fopen($filename, "r"); 
echo $content = fread($fp, filesize($filename)); 
fclose($fp); 

 

%PDF-1.3 3 0 obj <> endobj 4 0 obj <> stream xœí\Ks¹¾ûWàâ*¹<„ñ~ø*¯½›ÊVíf«*‡(ZIÌRyHZÑ¿O÷ŠIKŪØ&9 h|Sn「TÑâ©mÐÚ å 6¨Mxø´Ê「üú•wÔ:,WP¥ˆqžzN~ƒÇ)¹zõ¯CF{Wê?¿ß$èQ‡šQ†J_`ù-ÏF‹Ë99NOsòeqw7y ðíÕx’’‹3ò™ãœ\¼YA½ÖG%°Ãå¶QO ³R𯌩8U %æåG]MÀ¥J'{±¢C¾®ÃõÂ÷^S8oQgœxΧÖÊø5›§ï×ÕÙZ‚ðÔ6K ç[email protected]‘ñõ"OgdtÎHvE$ü2Ì/oŠ.£]t~ˆ‚9vêPeb훆LLˆê³ž{ÖvÆ{OYEò」|J'ãïiþcø2ËGØ+sè«;ø5§×äÛb˜Ïa¨]œñÙœ|&ØUo6Ø」¶j¥TóF½ûsIzJÞürl¯w$Kgr­tÑAÄ9&› ÚÒƒ`T¼bÐŒÜ9ü<œÃ8úÀ¿ÇáÈ÷t6K'3¤Oâ¹HŒàdt?Ío†óRlvy「Ž「tDæùš’QÉIø}<%KÖ‘¯‹9ɦ`ïW)°Ó Ì(¢hº›&XÂtÝ°¢M—Ùôjœß–mº~O¡aé4hÚþV ¨`ºOÏáŽ=­Àªœˆ·Ùôúâþf|yó>>wð„7ÊzCßçXì¨Lð•´.ð)E'fœMgµ&jN•.\8A ÅѵÚGÉZPaÃ:úâØþø˜¡Þ」uˆ,‡Ì·ãépæë¹]Ìà ^çiz›Nç4f&`–jÓ¨å™ÓèùÚÎ)*ÊIûimãWÜ#©v‘ŒGs*ÃJNÎxg &b5ã¹+)Ÿ§ù,Oo‡ãé&Ip­Ši,‚ó²Øf='Ǩ¡ƒ1ª•ˆ@%`&Àž J>9*ˆ¹5ì9rñÈ:(Š#yŸ¹yê¨Y®¨S…>ŒFcœäÀâWQÆxmøsI­÷ž9ü½¡Î‡ÕœDš-tM"[û†²rkïÆ「IßÌÈUžÝbLõ}œ-fuHõî!æQS`¹üÖû2 [Ш.—(~ÀXø6›」ÅÀ£K¼­óŒÆ5Ä ÆÿÓH¶ã`ƒÙÂUó¼%+Ë€ÃÛl1c7áæš%¼èOÿ<¯ÃË|xwV}´ÈQ&ˆ(ózx––ïâ²çëzäj’¦sj:U37‹«V0*y£Ù/cõ°±*9åÔú‘’ŸÊþY_FŒš³ÝJÁÏ}Î~Î…ßȵož)š—Bÿ…ÆN>œ[ê`ÖfŽê57sËËågÙмڑÔø°$o&D¬XL³æèö<®Äµ‚9¶ÏÌ=n(6*ÿt?J%‚Ip¥B‹~q6ýø^·_ÓÍ:‹òµ„¬MKGŠÍ‰ñ‚ú5/=’2žj–ô– 

我不知道,我會做些什麼來獲取文本並與用戶輸入相匹配的文本?

非常感謝......

+0

我不知道你的PDF是什麼,但是如果你不想讓人們擁有這些數據,我可能會拿掉上面的例子(以%PDF開頭)。 – zsalzbank

+0

pdf有文本,圖像,圖形等... – Bajrang

+1

你已經顯示的代碼是一樣的開放MP3文件在記事本 – Sourav

回答

0

一個PDF是一個包含了大量的資源,如純文本和二進制數據(圖像的結構化和壓縮文件格式,字體等)。壓縮是可選的。試圖從PDF中拉出文本字符串的主要問題是,您不知道文本結構是否在轉換過程中保留。有些程序做得很好,把單詞/句子保持爲一個字符串,而另一些程序可能會破壞某些東西,使得PDF源中的原始文本不可讀。源文件和PDF渲染應用程序在這種情況下很重要。

在我們討論解析PDF文本的細節之前,您應該只需要一個quick look around the web。除非你想體驗,否則不需要重新發明輪子。