2010-12-22 19 views
1

我想解析一個單詞文檔文件。我上傳使用PHP,然後我試圖使用file_get_contents()獲取內容;功能,但問題是,當其顯示在前端的大量的垃圾代碼在那裏,像如何使用PHP清理字符串中的垃圾文本?

Æ�Ѐ¤d�¤d�[$\$gd®l±����„h¤d�¤d�[$\$^„hgd®l±��� 
&�F�¤d�¤d�[$\$gd3¡���gd3¡����„,¤d�¤d�[$\$^„,gd(E����¤d�¤d�[$\$gdÿ/��<��C��D��I��Å������O��P��‚��¡��¢��¬��­��®��Ù��ã��ó��ô����� 

所以我的問題是我怎麼能清理這段文字?

回答

1

Word文檔(如docx和doc)不是直接的文本文件 - 它們實際上是專有文件類型,它們不僅具有來自字節0的文本 - 這是他們如何使用花哨的格式和字體。 .docx文件實際上是包含無數XML和樣式的歸檔文件(.zip文件)。

最好的辦法是使用文本輸入表單,或者在線查找代碼,以便您只提取文本。或者,將doc文件下載到您自己的計算機上,並使用您自己的MS word副本將其打開。