我正在使用NLTK包中的基本標記器。我之前使用OpenNLP的標記系統。我正在切換,因爲NLTK有更多的預構建模塊,我可以稍後在我的項目中使用。但是我現在缺少的一件事是標記器給出的「置信度」值。在NLTK中建立的POS Taggers對它的決定有一個置信度值嗎?
最初在OpenNLP的設置下,我得到了一個數字值(從0到1),告訴我這個標記器在其決策中有多信心(0完全沒有信心,1完全有信心)。我想知道是否有人在NLTK的標籤系統中知道任何可以類似工作的值。它不一定是相同的系統,但我希望能有一些數字排名,這樣我就可以很容易地看到給定的標籤是否應該進行雙重檢查。
我在NLTK中做的一件事與自信值相似。是標記器的總體準確度評級,但只有預先標記的源提供,並且針對整個文檔不是以每個詞爲基礎。
我的想法是,也許有一些統計數據確定哪些標籤被選爲單詞,如果我能得到它可能可用作類似的措施,但我找不到任何類似的東西。
謝謝!
謝謝,這是至少朝正確方向邁出的一步。你知道是否有可能有多個截止點,所以你可以創建幾乎像標記的自我評分系統?例如.70截止點獲得C,.8得到一個B,.9和一個A,然後任何較低的得到的都不是F或F? – user1614796
您可以使用具有不同截斷概率的標記器多次標記它。另一種可能性是修改[ClassifierBasedPOSTagger](http://nltk.org/_modules/nltk/tag/sequential.html#ClassifierBasedPOSTagger)的'choose_tag()'方法,使其返回'(tag,pdist.prob (標籤))'而不是標籤。 –
我想所有這些之間我應該能夠構建類似於我所尋找的東西謝謝 – user1614796