1
使用斯坦福阿拉伯文分詞器,我們要標記和分割阿拉伯文字。 ArabicSegmenter可以成功執行此操作,但結果不會保留令牌的原始字符偏移量(CoreLabels)。此外,在ArabicSegmenter類(3.5.2)中使用的ArabicTokenizer的結果具有字符偏移(即開頭)設置爲0的所有令牌。Stanford Segmenter:如何生成阿拉伯文字段以及標記/段字符開始偏移量和長度?
如何獲得阿拉伯字段以及結果的字符偏移量CoreLables?