0
我試圖將非標準醫療診斷描述與ICD10參考表描述相匹配以獲得ICD10代碼。這將是模糊匹配。例如,與參考表模糊匹配
我想匹配「瞬時缺血性發作」到「暫時性腦缺血發作,未指明」(ICD10代碼G45.9)。或「不可避免的噁心,嘔吐」改爲「噁心嘔吐,未說明」(ICD10代碼R11.2)。
什麼是做這種類型的模糊匹配的最佳方式,使用R或Python?
我查看了R中的stringdist包,以獲得各種'字符串距離'度量,並取得了不同的成功。我也在考慮使用bag-of-word技術,但在我的情況下使用它時我不知道如何使用它。因爲我比文字文件比較小字符串。
謝謝
這個問題的答案是否有幫助? http://stackoverflow.com/questions/36921346/r-which-rows-have-longest-partial-string-match-between-two-vectors – Zelazny7
你能舉一個你想要實現的例子嗎?我不確定你有多少列以及你想要什麼結果。 –