2011-03-10 73 views
3

我目前正在使用語言建模工作在分類任務。該項目的第一部分涉及使用n-gram語言模型來使用c5.0對文檔進行分類。項目的最後部分要求我使用交叉熵對每個類進行建模,並根據這些模型對測試用例進行分類。交叉熵語言建模

有沒有人有使用交叉熵的經驗,或者有關如何使用交叉熵模型進行採樣數據的信息的鏈接?任何信息都會很棒!謝謝

回答

1

你可以得到在各種教科書上使用跨語言模型的理論背景,例如, 「語言和語言處理」由Jurafsky & Martin,第116-118頁在第2版中。 至於具體的用法,在大多數語言建模工具中,交叉熵不是直接測量的,而是交叉熵的「困惑」,即交叉熵。反過來,困惑可以用來分類文件。見例如在SLM命令「evallm」的文件,卡內基瓜大學語言建模工具(http://www.speech.cs.cmu.edu/SLM/toolkit_documentation.html)

好運:)