我熟悉Python的nltk.metrics.distance
模塊,它通常用於計算兩個字符串的編輯距離。Python中基於令牌的編輯距離?
我感興趣的是一個函數,它計算這樣的距離,但不是像通常那樣按字母順序而是按照符號來計算。我的意思是,你可以只替換/添加/刪除整個令牌(而不是字符)。
定期編輯距離和所需的我的版本標記化的例子:
> char_dist("aa bbbb cc",
"aa b cc")
3 # add 'b' character three-times
> token_dist("aa bbbb cc",
"aa b cc")
1 # replace 'bbbb' token with 'b' token
有已經有一些功能,即可以計算在Python token_dist
?我寧願使用已經實現和測試的東西,而不是寫自己的代碼。感謝您的提示。
太棒了!謝謝 – petrbel