2012-02-18 77 views
0

我正在使用Python編寫一些集成了兩個系統的腳本。系統掃描郵箱並搜索特定主題行,然後解析電子郵件中的信息。我正在尋找的一個元素是一個HTML鏈接,然後我使用Curl將html代碼以文本格式寫入文本文件。使用Python將日語翻譯爲英語

我的問題是,如果電子郵件中的文本是日文,Python中是否有任何模塊會自動將該文本轉換爲英文?或者我有轉換爲字符串到Unicode然後解碼?

這是我看到的一個例子。當我使用捲曲攫取從URL文本:

USB Host Stack 処理において解放されたメモリを不正に使用している 

當我做一個簡單的re.match抓住字符串,並將其寫入文件得到這樣的:

USB Host Stack æQtk0J0D0f0ã‰>eU0Œ0_0á0â0ê0’0Nckk0O(uW0f0D0‹0 

我還可以獲得以下,當我使用電子郵件模塊

>>> emailMessage.get_payload() 
USB Host Stack =E5=87=A6=E7=90=86=E3=81=AB=E3=81=8A=E3=81=84=E3=81=A6=E8=A7= 
=A3=E6=94=BE=E3=81=95=E3=82=8C=E3=81=9F=E3=83=A1=E3=83=A2=E3=83=AA=E3=82=92= 
=E4=B8=8D=E6=AD=A3=E3=81=AB=E4=BD=BF=E7=94=A8=E3=81=97=E3=81=A6=E3=81=84=E3= 
=82=8B 

所以,我想我真正的問題搶電子郵件是哪些步驟我要好好得到這個轉換爲英格蘭正確。我真的很想把第一個是日文字符並將其轉換爲英文。

+0

你使用Python 2.x還是Python 3.x?如果你使用的是Python 2.x ...你有沒有讀過['unicode'](http://docs.python.org/library/functions.html#unicode)? – juliomalegria 2012-02-18 16:42:08

+0

轉換爲英文怎麼樣?拼寫還是翻譯? – 2012-02-18 16:42:47

+1

該字符串已經是Unicode。您可以直接處理日語。不需要「轉換」。如果你想將日文翻譯成英文,你需要非常非常複雜的軟件。你在問NLTK嗎?或者你在問Google翻譯嗎? – 2012-02-18 16:43:31

回答

0

與其他人一樣,自然語言翻譯是一個非常具有挑戰性的問題。因此,請注意發送字符串以轉換爲服務,例如Google翻譯,它將爲您翻譯它們(糟糕,但總比沒有好)並將它們發回。

下SO鏈接顯示的一種方法:translate url with google translate from python script

之前你得到的工作,你應該理清您的編碼問題(unicode的,uuencoding等),使你在閱讀和不破壞其寫入文本。

+0

謝謝..另一部分是系統是完全自動化的,所以它很難自動化谷歌部分。 – 2012-02-18 18:02:34

+1

請注意,谷歌翻譯api v1最近已被棄用,並且v2是一項付費服務​​,因此Web上的大量示例將不再起作用。預計會有很多「懷疑的濫用服務條款」錯誤。 – DSM 2012-02-18 18:07:04

+0

另一個說明...因爲我們在這個問題上的簡單問題。爲什麼readline()不會讓我回到我正在閱讀的txt文件中存在的內容?正如你可以從我的第一個例子中看到的那樣。 – 2012-02-18 18:39:34