Stanford Segmenter：如何生成阿拉伯文字段以及標記/段字符開始偏移量和長度？

使用斯坦福阿拉伯文分詞器，我們要標記和分割阿拉伯文字。 ArabicSegmenter可以成功執行此操作，但結果不會保留令牌的原始字符偏移量（CoreLabels）。此外，在ArabicSegmenter類（3.5.2）中使用的ArabicTokenizer的結果具有字符偏移（即開頭）設置爲0的所有令牌。Stanford Segmenter：如何生成阿拉伯文字段以及標記/段字符開始偏移量和長度？

如何獲得阿拉伯字段以及結果的字符偏移量CoreLables？

來源

2015-06-13 Mohamed Gad-Elrab

來自ArabicTokenizer的0的字符偏移量是由於現在已在Github repository中修復的錯誤引起的。該修補程序將包含在下一個CoreNLP版本（3.5.3，計劃於2015年10月中旬）中。使用此修復程序CoreLabel從tokenize返回時應使用正確的索引註釋到原始源文本中，如this test中所示。

目前，ArabicSegmenter仍然是一個字符串到字符串的接口，這意味着可能沒有一個乾淨的方法來從中檢索原始字符偏移量。

來源

2015-09-25 00:22:26 futurulus

Stanford Segmenter：如何生成阿拉伯文字段以及標記/段字符開始偏移量和長度？

回答

相關問題