我收到了一堆.DOC文檔。我甚至沒有肯定他們是Word文檔,但即使他們是,我也需要打開並用例如。 Python從中提取信息。哪個頁面代碼被用來編碼這個DOC文檔?
問題是,我無法弄清楚它們是如何編碼的:無論我嘗試使用哪種編碼,UltraEdit的轉換函數都不會糾正文本。 OpenOffice 3.2也無法正確顯示內容(猜測Windows-1252)。
下面是一個例子,希望有人知道什麼pagecode是:
「lÕAssemblŽegŽnŽrale」,而不是 「L'Assemblée興業」
感謝您的任何提示。
我應該補充一點,我只會在一堆數量很大的時候使用綠寶石。 – Stephen 2010-03-03 20:07:26