2015-06-13 10 views
1

使用斯坦福阿拉伯文分詞器,我們要標記和分割阿拉伯文字。 ArabicSegmenter可以成功執行此操作,但結果不會保留令牌的原始字符偏移量(CoreLabels)。此外,在ArabicSegmenter類(3.5.2)中使用的ArabicTokenizer的結果具有字符偏移(即開頭)設置爲0的所有令牌。Stanford Segmenter:如何生成阿拉伯文字段以及標記/段字符開始偏移量和長度?

如何獲得阿拉伯字段以及結果的字符偏移量CoreLables?

回答

2

來自ArabicTokenizer的0的字符偏移量是由於現在已在Github repository中修復的錯誤引起的。該修補程序將包含在下一個CoreNLP版本(3.5.3,計劃於2015年10月中旬)中。使用此修復程序CoreLabeltokenize返回時應使用正確的索引註釋到原始源文本中,如this test中所示。

目前,ArabicSegmenter仍然是一個字符串到字符串的接口,這意味着可能沒有一個乾淨的方法來從中檢索原始字符偏移量。