1

我正在研究如何從文檔中提取關鍵短語作爲我的論文。如何使用PoS標籤作爲Naive Bayes分類器訓練數據的特徵?

在我的研究中,我使用樸素貝葉斯分類器機器學習來創建候選術語特徵的訓練模型。其中一個特性是PoS標籤,我認爲這個特性對於指定一個術語是否是keyphrase非常重要。

但是輸入樸素貝葉斯(NB)分類器是數字和PoS標記是一個字符串。

所以我不知道將PoS標籤特徵表示爲數字以便成爲NB分類器的輸入特徵的方式。

請幫我給你的建議。

感謝和問候, HIEN蘇

回答

1

你可以把POS標記爲一個字。然後,您可以使用POS單元,雙字母鍵或三字母鍵作爲功能。

例子:

他們/ PRP拒絕/ VBP到/ TO允許/ VB我們/ PRB來/ TO獲得/ VB中/ DT拒絕/ NN許可證/ NN。

如果您將POS trigrams作爲功能。您可以構建具有以下功能的矢量。

Feature   Value 
(PRP,VBP,TO)  1 
(VBP,TO,VB)  1 
(TO,VB,PRB)  1 

等等。

您還可以使用POS功能的tf-idf值。

+0

非常感謝。 – user1266236

相關問題