斯坦福大學NLP依賴樹解析器中缺失單詞

我正在使用依賴樹解析器製作應用程序。實際上，解析器是這樣的： Parser Stanford，但它很少會更改我想分析的句子中的一些或兩個字母。這對我來說是一個很大的麻煩，因爲在這些變化中我看不到任何模式，並且我需要依賴樹和我的句子相同的單詞。斯坦福大學NLP依賴樹解析器中缺失單詞

我能看到的只是一些詞有這些問題。我正在使用推文數據庫。所以，我在這個數據中有很多語法錯誤。例如，標籤「#AllAmericanhumour」成爲AllAmericanhumor。它錯過了一個字母（u）。

我能做些什麼來解決這個問題嗎？在我的第一個觀點中，我想使用編輯距離算法，但我認爲這可能是一個更簡單的方法。

謝謝大家提前

來源

2012-07-27 Thiago

你可以把選項與-tokenize.options標誌/屬性標記生成器。對於這個特殊的正常化，你可以用

-tokenize.options americanize=false

還有各種其他的歸一化，你可以關閉（見PTBTokenizer或http://nlp.stanford.edu/software/tokenizer.shtml關閉它。你可以關閉了很多與

-tokenize.options ptb3Escaping=false

然而，解析器接受的數據看起來像ptb3Escaping=true的輸出，所以如果使用非標準化的標記，它的性能往往會降低，因此，您可能需要考慮其他策略。 g在Java級別，您可以查看單詞標記，它們實際上是地圖，並且它們有各種各樣的鍵。 OriginalTextAnnotation會給你非標準化的標記，即使它已被標準化。 CharacterOffsetBeginAnnotation和CharacterOffsetEndAnnotation將映射到文本中的字符偏移量。

p.s.你應該接受一些答案:-)。

來源

2012-07-28 17:50:12

斯坦福大學NLP依賴樹解析器中缺失單詞

回答

相關問題