3
我使用OpenNLP java將字符串轉換爲令牌。但是,我發現圓括號不能被正確識別。OpenNLP Tokenizer中的圓括號
我使用的代碼: `
InputStream is = new FileInputStream("en-token.bin");
TokenizerModel model = new TokenizerModel(is);
Tokenizer tokenizer = new TokenizerME(model);
String tokens[] = tokenizer.tokenize("the string");`
例如,字符串爲「我這樣的人(被)關閉的消息」。 輸出結果如下: people like me (are ) turning off the news
「are」的左圓括號未被識別。另外,例如,「401(k)」被轉換爲「401(k」和「)」。
我也嘗試過「SimpleTokenizer」類。它可以分開括號,但也可以將「前頁」分隔爲「我不想要的」「前」和「頁」。
我想知道是否有任何解決方案?
感謝。
不僅圓括號,方括號也不被識別。所以,我們必須查看源代碼。 – Nuwanda