在NLTK中建立的POS Taggers對它的決定有一個置信度值嗎？

我正在使用NLTK包中的基本標記器。我之前使用OpenNLP的標記系統。我正在切換，因爲NLTK有更多的預構建模塊，我可以稍後在我的項目中使用。但是我現在缺少的一件事是標記器給出的「置信度」值。在NLTK中建立的POS Taggers對它的決定有一個置信度值嗎？

最初在OpenNLP的設置下，我得到了一個數字值（從0到1），告訴我這個標記器在其決策中有多信心（0完全沒有信心，1完全有信心）。我想知道是否有人在NLTK的標籤系統中知道任何可以類似工作的值。它不一定是相同的系統，但我希望能有一些數字排名，這樣我就可以很容易地看到給定的標籤是否應該進行雙重檢查。

我在NLTK中做的一件事與自信值相似。是標記器的總體準確度評級，但只有預先標記的源提供，並且針對整個文檔不是以每個詞爲基礎。

我的想法是，也許有一些統計數據確定哪些標籤被選爲單詞，如果我能得到它可能可用作類似的措施，但我找不到任何類似的東西。

謝謝！

來源

2013-01-07 user1614796

NLTK標記加註者不提供針對每個令牌的直接信任值，但樸素貝葉斯標註器允許通過的截止概率：

tagger = ClassifierBasedPOSTagger(train=training_sentences, cutoff_prob=0.95)

打標籤將回無如果在POS標籤的信心低於95％。我發現0.95是精確度和召回率之間的良好平衡（當然，這取決於您的應用程序的需求）。

來源

2013-01-08 09:55:43

謝謝，這是至少朝正確方向邁出的一步。你知道是否有可能有多個截止點，所以你可以創建幾乎像標記的自我評分系統？例如.70截止點獲得C，.8得到一個B，.9和一個A，然後任何較低的得到的都不是F或F？ – user1614796

您可以使用具有不同截斷概率的標記器多次標記它。另一種可能性是修改[ClassifierBasedPOSTagger]（http://nltk.org/_modules/nltk/tag/sequential.html#ClassifierBasedPOSTagger）的'choose_tag（）'方法，使其返回'（tag，pdist.prob （標籤））'而不是標籤。 –

我想所有這些之間我應該能夠構建類似於我所尋找的東西謝謝 – user1614796

在NLTK中建立的POS Taggers對它的決定有一個置信度值嗎？

回答

相關問題