我正在嘗試閱讀一些Ms Word文檔,這些文檔是用Unicode編碼的,有些像希伯來文或阿拉伯文。但它讀入二進制文件並轉換成一些非場景字符。我搜索了一些示例代碼,但其中沒有一個正確運行,您是否有任何阿拉伯語和希伯來語等Unicode文檔的經驗?謝謝PHP閱讀「Unicode」MS Word文檔
0
A
回答
1
PHP的一個缺點是(至少直到最近)一直是Unicode的無知。你通常只會忽略這樣一個事實,即你正在閱讀的是Unicode,並希望你的文檔最終能夠在Web瀏覽器中知道如何處理Unicode。 PHP不會破壞任何東西,它只是不在乎。
根據你正在嘗試做什麼,PHP中增加了一些改進的Unicode處理。其中有mb_
字符串函數,它處理多字節字符串。
您還需要了解文本在Word文檔中的編碼方式。 Unicode支持許多格式,最流行和最緊湊的格式是UTF-8
,但也有UTF-16
和UTF-32
。
相關問題
- 1. 閱讀UWP中的MS WORD文檔
- 2. 在php中閱讀MS word文件
- 3. 閱讀和Word文檔
- 4. 閱讀形式在MS Word文檔中的文字
- 5. 使用php讀取帶有圖像的Ms文檔word文檔
- 6. 如何閱讀使用MFC的MS Word文檔?
- 7. 讀/寫/保存MS Word文檔在c#
- 8. 閱讀並顯示Word文檔
- 9. 在網頁上閱讀Word/.docx文檔
- 10. 閱讀java中的微軟word文檔
- 11. 閱讀C#中的word文檔
- 12. Word文檔的閱讀索引(目錄)
- 13. 閱讀Word文檔的Java庫
- 14. 使用Office Word與PHP閱讀文檔文件
- 15. 試圖閱讀MS Office文檔
- 16. 如何閱讀出現在MS Word文檔文本框中的文本?
- 17. PHP,文檔閱讀庫
- 18. 如何在PHP中閱讀Word,Excell和PDF文檔?
- 19. 閱讀Unicode文件
- 20. MS Word文檔到RTF文檔
- 21. Coverting MS Word文檔HTML
- 22. HTML到MS Word文檔?
- 23. 閱讀ASP.NET C#中的MS Word#
- 24. 使用Java閱讀MS Word 2007
- 25. Unicode文本在MS Word和Python
- 26. 在php中讀取word文檔
- 27. php word文檔 - > saveas +編碼+只讀
- 28. 在PHP中讀取word文檔
- 29. 閱讀unicode
- 30. 用C#Windows窗體在MS Word中打開MS Word文檔
你甚至解析Word文檔作爲Word文檔嗎?阿拉伯語unicode塊在這裏描述:http://en.wikipedia.org/wiki/Arabic_(Unicode_block)如果你有一個體面的Unicode實現,我不明白爲什麼處理阿拉伯文或希伯來文將是任何不同於其他字符範圍。 –
你是否從頭開始編寫自己的MS Word實現? –
@Y sangkok,是的,我解析它,但不能走槽。 – ePezhman