2014-10-31 69 views
1

我是機器學習的開端,我想知道是否可以將機器學習應用於以下情況。將機器學習應用於分析混合語言

圖片我傳遞一個混合語言字符串(英語+其他東西)的機器學習庫,我希望庫告訴我,如果這串已經完全從英語翻譯成目標語言與否。例如

例1:

  • 輸入: 「我阿穆爾iphone」 #(我愛iPhone在西班牙)
  • 預期的結果:
    並不需要未來翻譯爲 'iPhone' 是品牌名稱

實施例2:

  • 輸入:

    「請上傳您的文件」 #(請上傳您的文件在中國)

  • 預期的結果:

    需要未來的翻譯(對中國)的 「上傳」 是一個動作應該翻譯。

如果學習機可以適用於這一點,那我應該怎麼挑輸入字符串的尺寸和算法,我應該挑選(logistic迴歸或神經網絡?)

感謝

回答

1

自然語言處理是一個龐大而多樣的領域。你可以從很多方面考慮你的例子。

首先是字符集和符號編碼。大多數非浪漫語言將具有標準26字母字母之外的字符。如果您看到某種語言的核心字符範圍內外的字符,則需要大量字典。

第二個是看一組例子或單詞在一定的語言和使用樸素貝葉斯分類與語言的話在一些訓練集關聯。

您可以進一步去做幹檢測和更多,但我沒有研究過他們不夠好。考慮發佈在Crossvalidated上。

+0

感謝您的回覆。其實我正在考慮非浪漫語言檢測。基本上,第一步是從給定字符串中提取所有英文字符,如果沒有英文字符串,則不需要將來的工作,否則,分析英文字符串(動詞,名詞等)的語音。那麼可能有兩種情況:如果英文字符串是動詞,很可能需要將來翻譯,否則如果它是名詞,除非它是品牌名稱,則可能需要將來的翻譯。 – user2966813 2014-10-31 05:09:57

+0

這是一個實用的方法嗎? – user2966813 2014-10-31 05:23:17