2016-03-08 183 views
3

我有一個例子,其中斯坦福NLP輸出的句子一個奇怪的解析樹:斯坦福NLP - VP VS NP

Clean my desk 

enter image description here

(ROOT 
    (NP 
    (NP (JJ Clean)) 
    (NP (PRP$ my) (NN desk)))) 

正如你所看到的,標籤字Clean作爲一個形容詞取決於動詞desk與整個短語被標記爲Noun Phrase,而我的期望是Clean被標記爲動詞,並且階段爲Verb Phrase

JJ-PRP $ -NN組合對我來說根本沒有英文意義。任何人都遇到過類似的事情?我知道斯坦福大學的NLP結果有時會根據解析工具運行的序列(?)而有所不同。如何正確製作這個標籤?

回答

0

碰巧,如果你餵了一句"Clean my desk"直接向解析器(實際上是「記號化」,「SSPLIT」和「解析」工具),它提供了以下結果:

(ROOT (NP (NP (NNP Clean)) (NP (PRP$ my) (NN desk)))) 

然而,現在"Clean"是一個正確的名詞 - 非常聰明,斯坦福大學。因此,如果我們用小寫飼料句子與第一個字 - "clean my desk" - 我們終於得到了什麼,我們正在尋找:

(ROOT (S (VP (VB clean) (NP (PRP$ my) (NN desk))))) 

要小心,不要將完整的句子轉換成小寫。在測試時我注意到"I"這個詞變成了小寫字母"i"被標記爲FW(外文字),所以只能將第一個字變成小寫。

1

CoreNLP在這些命令性陳述中出了名的錯誤。這個錯誤很可能來自POS標記錯誤標記爲乾淨的形容詞,儘管看起來解析器也犯了同樣的錯誤。

+0

謝謝Gabor。我會嘗試運行解析器而不先運行POS標記器,看看是否有任何區別。 – artooras