這是我在stackoverflow上的第一個問題,請耐心等待。NLTK最大熵分類器原始分數
我正在做一些語料庫建設,特別是試圖撰寫高棉語/英語平行句子語料庫。我使用一些手動配對的句子來訓練最大熵分類器,它將從我的平行文檔語料庫中選擇更多的平行句對。
我的問題是,我有非常少的人力註釋培訓數據,用它來訓練分類器。因此,它不是一個很好的分類器。因此,我的老師建議我查看MaxEnt分類器原始分數,看看是否存在某個分數閾值,高於這個分數閾值時,人類判斷髮現被歸類爲翻譯的句子對實際上是彼此的翻譯。
但是,我正在使用NLTK的MaxEnt分類器,我找不到一個函數,它會給我分類器用來決定是還是不是的原始分數。
NLTK的MaxEnt分類器是否具有此功能,或者沒有辦法找出分類器原始分數?是否有一個包含更好的MaxEnt分類器的軟件包,可以爲您提供我應該使用的原始分數?
在此先感謝您的幫助和建議!