2012-07-27 81 views
0

我正在使用依賴樹解析器製作應用程序。實際上,解析器是這樣的: Parser Stanford,但它很少會更改我想分析的句子中的一些或兩個字母。這對我來說是一個很大的麻煩,因爲在這些變化中我看不到任何模式,並且我需要依賴樹和我的句子相同的單詞。斯坦福大學NLP依賴樹解析器中缺失單詞

我能看到的只是一些詞有這些問題。我正在使用推文數據庫。所以,我在這個數據中有很多語法錯誤。例如,標籤「#AllAmericanhumour」成爲AllAmericanhumor。它錯過了一個字母(u)。

我能做些什麼來解決這個問題嗎?在我的第一個觀點中,我想使用編輯距離算法,但我認爲這可能是一個更簡單的方法。

謝謝大家提前

回答

1

你可以把選項與-tokenize.options標誌/屬性標記生成器。對於這個特殊的正常化,你可以用

-tokenize.options americanize=false 

還有各種其他的歸一化,你可以關閉(見PTBTokenizer或http://nlp.stanford.edu/software/tokenizer.shtml關閉它。你可以關閉了很多與

-tokenize.options ptb3Escaping=false 

然而,解析器接受的數據看起來像ptb3Escaping=true的輸出,所以如果使用非標準化的標記,它的性能往往會降低,因此,您可能需要考慮其他策略。 g在Java級別,您可以查看單詞標記,它們實際上是地圖,並且它們有各種各樣的鍵。 OriginalTextAnnotation會給你非標準化的標記,即使它已被標準化。 CharacterOffsetBeginAnnotation和CharacterOffsetEndAnnotation將映射到文本中的字符偏移量。

p.s.你應該接受一些答案:-)。

相關問題