2012-09-25 75 views
6

我有一堆描述疾病的文本文檔。這些文件在大多數情況下很短,通常只包含一個句子。這裏給出一個例子:疾病命名實體識別

原發性肺動脈高壓是一種進行性疾病,其中最小肺動脈的廣泛閉塞導致肺血管阻力增加,並隨後導致右心室衰竭。

我需要的是一個工具,查找所有疾病術語(例如,「肺動脈高壓」,在這種情況下)的句子,並將它們映射到像MeSH一個受控詞彙。

在此先感謝您的答案!

+1

這聽起來很具體,而不是一個編程問題*本身*。至少不是這裏所表達的。 –

+1

似乎這是更多的數據挖掘問題? – Harpal

回答

2

有很多工具來做到這一點。一些流行的:

最他們有一些預定義的模型,即他們已經接受了一些常規數據集的訓練(新聞文章等)。但是,您的文本非常具體,因此您可能需要首先構建語料庫並重新訓練其中一種工具,以便根據數據進行調整。

更簡單地說,作爲第一個測試,您可以嘗試一種基於字典的方法:設計一個實體名稱列表,並執行一些精確或近似匹配。例如,該操作在LingPipe's tutorial中描述。

6

這裏有兩條管道是專門爲醫療文檔解析設計:

都使用UMLS,統一醫療語言系統,因此需要你有一個(免費)許可證。兩者都是Java,並且或多或少都易於設置。

+2

我不確定我會將它們歸類爲「易於設置」,但它們工作得相當好。MetaMap的新版本也於去年年底發佈。 –