如何將依賴路徑編碼爲分類特徵？

我想實現動詞對之間的關系提取。我想使用從一個動詞到另一個動詞的依賴路徑作爲我的分類器的一個特徵（預測是否存在關係X）。但我不確定如何編碼依賴路徑作爲一個功能。以下是一些例子依賴路徑，如空間從StanfordCoreNLP倒塌的依賴分離的關係註釋：如何將依賴路徑編碼爲分類特徵？

nsubj acl nmod:from acl nmod:by conj:and 
nsubj nmod:into 
nsubj acl:relcl advmod nmod:of

要記住的是，這些路徑是可變長度和關係可以再現沒有任何限制，這一點很重要。

兩個影響編碼這個功能，來我的心的方法是：

1）忽略的序列，只是有一個特點與它的價值是它出現在路徑

的次數每個關係

2）有一個長度爲n的滑動窗口，每個可能的一對關係都有一個特徵，其值是這兩個關係連續出現的次數。我想這是如何編碼n-gram的。然而，可能的關係數量是50，這意味着我不能真正採用這種方法。

歡迎任何建議。

我們有一個基於依賴路徑構建分類器的項目。我詢問是誰開發的系統組成員，他說：

整個路徑

因此指示功能，如果你有訓練數據點（verb1 -e1-> W1 -e2-> （e1-e2-e3-e4）
而且他也做了ngram序列，所以對於同樣的數據點，你也會有（e1），（e2），（e3），（e4），（e1-e2），（e2-e3），（e3-e4），（e1-e2-e3），（e2-e3-e4）

他也推薦結束倒塌同位邊緣使路徑更小。

另外，我要指出，他開發了一套針對每個關係高精度的規則，並用它來創建一個大的訓練數據集。

2015-10-06 05:48:43 StanfordNLPHelp

回答