2014-01-09 27 views

回答

1

看在Content-Type頭的charset值。除非它是UTF-8,你通常可以得到該電子郵件是在由語言的想法。

這是否幫助?

+0

thx回覆。還有什麼其他的價值?唯一的想法是我已經看到了Content_Type =「multipart/alternative;或Content-Type:multipart/alternative; boundary = 047d7b6dd0b4e9d04104ef8f7021。所以沒有utf8,但這兩條消息實際上是en_US。 – JaJ

+1

剛剛看到您的評論。類型標題是說你的消息是由其他部分組成的,你需要向下鑽取另外1個層次,看看子部分的內容類型 –

+0

US-ASCII或ISO-8859-1等通用字符集用於各種各樣的語言,包括他們實際上不適合的許多語言(出於歷史原因,或者因爲用戶不能夠 - 或者被允許 - - 正確地配置它)。類似地,最近版本的Exchange似乎把在一個反映服務器配置的X-Accept-Language:頭中,而不是用戶的偏好。 – tripleee

0

沒有可靠的方法,但對於某些場景中,語言猜測者像libtextcat精度就足夠了。

如果你沿着這條路走下去,發現libtextcat附帶語言模型這基本上只是一個概念證明的一種非常原始的集合。 LibreOffice維護一個分支libexttextcat,它具有適當的語言模型,但僅適用於Unicode。創建你自己的語言模型也不是很難。

相關問題