疾病命名實體識別

我有一堆描述疾病的文本文檔。這些文件在大多數情況下很短，通常只包含一個句子。這裏給出一個例子：疾病命名實體識別

原發性肺動脈高壓是一種進行性疾病，其中最小肺動脈的廣泛閉塞導致肺血管阻力增加，並隨後導致右心室衰竭。

我需要的是一個工具，查找所有疾病術語（例如，「肺動脈高壓」，在這種情況下）的句子，並將它們映射到像MeSH一個受控詞彙。

在此先感謝您的答案！

2012-09-25 alex

這聽起來很具體，而不是一個編程問題*本身*。至少不是這裏所表達的。 –

似乎這是更多的數據挖掘問題？ – Harpal

高級繪畫紙是一種文字處理系統，讓你做文本挖掘文本任務。這些任務由管道在上面窗口的下拉列表中刪除定義，文本可以粘貼在文本區域中。

2012-09-25 14:56:00 Pierre

有很多工具來做到這一點。一些流行的：

最他們有一些預定義的模型，即他們已經接受了一些常規數據集的訓練（新聞文章等）。但是，您的文本非常具體，因此您可能需要首先構建語料庫並重新訓練其中一種工具，以便根據數據進行調整。

更簡單地說，作爲第一個測試，您可以嘗試一種基於字典的方法：設計一個實體名稱列表，並執行一些精確或近似匹配。例如，該操作在LingPipe's tutorial中描述。

2013-05-04 20:34:29

這裏有兩條管道是專門爲醫療文檔解析設計：

都使用UMLS，統一醫療語言系統，因此需要你有一個（免費）許可證。兩者都是Java，並且或多或少都易於設置。

2013-05-14 03:08:17 Pascal

我不確定我會將它們歸類爲「易於設置」，但它們工作得相當好。MetaMap的新版本也於去年年底發佈。 –

回答