0
我用CRF ++在火車文件命名爲中國實體recognition.The第一列標誌代表當前word.I看到有人用只有一箇中國字符的第一列,但有人使用許多中國的人物,如中國。用於中文的crf ++中的單詞記號和多字詞記號有什麼區別?
我用CRF ++在火車文件命名爲中國實體recognition.The第一列標誌代表當前word.I看到有人用只有一箇中國字符的第一列,但有人使用許多中國的人物,如中國。用於中文的crf ++中的單詞記號和多字詞記號有什麼區別?
中國字能做1個漢字或繁體漢字:
中代表一個英文單詞 - 中間。
國代表另一個英文單詞 - 國家。
和中國代表英文單詞 - 中國。
它們是相同的 - 當前字 - 就像'CHINA'有5個英文字符,中國有2箇中文字符 - 都是cft ++中的當前字。
所以,我應該用中國B-LOC還是中B-LOC國I-LOC? – jiffies