2011-03-21 22 views
11

困惑我已經從電子郵件的語料庫的最頻繁存在的單克500功能集。我一直在使用它來根據測試電子郵件中每個單詞的出現/缺失使用c5.0對電子郵件進行分類。計算語言模型的電子郵件分類

現在我需要計算方面的困惑在功能設置和使用該分類的電子郵件。我不知道有沒有人在語言模型的經驗,並且知道我怎麼會去計算模型的困惑,任何幫助將是巨大的!

我要補充一點,我所知道的工具,可以自動爲我做到這一點,SRILM/CMU-LMtoolkit舉例來說,但我寧願從地面使這個自己了我的最後一年的項目其一部分!我只是需要提示如何開始...也許一個鏈接「的白癡引導困惑計算和分類使用困惑」!

非常感謝!

+1

OT:我自己的困惑只是去了圖表閱讀的問題。也有一些是對:) – sehe 2011-03-23 10:16:35

+0

哈哈,道歉讀了那朵有點長!但我認爲所有這些都需要說......即將死去,看看有人能夠簡單地解釋這一點! – 2011-03-23 10:34:17

回答

2

CMU course exercise似乎有你想要的東西。是的,他們建議您使用SRILM,但請參閱「語言模型」部分 - 它指向書籍章節,Microsoft Research的教程和該教程的演示文稿。

希望這會有所幫助!

+0

非常感謝,這本書是完美的。在Google的最後幾天裏,我已經聽過這個講座,但這本書給出了一個很好的例子。再次感謝!! – 2011-03-23 16:25:39

+0

鏈接被破壞。你提到的這本書是口語處理? – Thorn 2013-02-13 13:08:40

1

我知道它已經有一段時間,因爲你問的問題,但如果你仍然對更廣泛的困惑(我的意思是自然語言處理,語音識別,詞性標註和命名實體識別等)感興趣,那麼我建議您參加當前在Coursera上運行的這門課程。

這裏是URL https://www.coursera.org/course/nlangp