2010-03-03 66 views
0

我收到了一堆.DOC文檔。我甚至沒有肯定他們是Word文檔,但即使他們是,我也需要打開並用例如。 Python從中提取信息。哪個頁面代碼被用來編碼這個DOC文檔?

問題是,我無法弄清楚它們是如何編碼的:無論我嘗試使用哪種編碼,UltraEdit的轉換函數都不會糾正文本。 OpenOffice 3.2也無法正確顯示內容(猜測Windows-1252)。

下面是一個例子,希望有人知道什麼pagecode是:

「lÕAssemblŽegŽnŽrale」,而不是 「L'Assemblée興業」

感謝您的任何提示。

回答

0

Greenstone數字圖書館http://www.greenstone.org/提供了包括編碼檢測在內的字文檔的很好的文本提取。

+0

我應該補充一點,我只會在一堆數量很大的時候使用綠寶石。 – Stephen 2010-03-03 20:07:26

0

在服務器模式下運行msword爲您提供了一系列腳本選項 - 我確定檢測編碼是可能的。

+0

感謝您的指點。 – Gulbahar 2010-03-05 12:22:12

相關問題