2017-08-16 95 views
4

在單詞匹配的情況下是否有模糊的選擇,或忽略一些特殊情況。UIMA芸田裏的曖昧

對於前:

STRINGLIST AMIMALLIST = {"LION","TIGER","MONKEY"}; 
DECLARE ANIMAL; 


Document {-> MARKFAST(ANIMAL, AMIMALLIST, true)}; 

我需要匹配列表中的字詞的情況下,我面對像

Tiger-MONKEY一些特殊字符$

documentation有是不同的評估者任何想法如何使用? 或者,我可以用SCOREMARKSCORE

+0

@PeterKluegl您可以在這裏幫忙嗎? – Gaurav

+1

是的,我會在接下來的幾天添加一個答案。 –

回答

0

有幾個方面考慮這裏。通常,UIMA Ruta在字典查找中不支持模糊性。 SCOREMARKSCORE是可用於在順序規則中引入一些heurstic評分(不是真正的模糊性)的語言元素。在你提出的問題的例子中,你並不需要模糊匹配。

在UIMA Ruta中的字典查找工作在RutaBasic註釋。這些註釋是由UIMA Ruta自己創建和維護的(不應該由其他分析引擎或規則直接更改)。 RutaBasic註釋表示註釋引用的最小片段。默認情況下,RutaEngine的播種器爲單詞(W - >CWSWCAP)和許多其他令牌(如SPECIAL)創建 - 或$的註釋。這意味着還有一個RutaBasic註釋,並且字典查找可以在這些標記之間切換。因此,老虎和猴子應該註釋,你的問題中的例子應該實際上工作(我測試過)。您可能需要一些postprossesing,以包括SPECIALANIMAL

我不得不提到在字典查找(多樹詞列表,TRIE)中也有使用編輯距離的功能。但是,這種功能還沒有維持好幾年。它也應該支持不同的權重來進行特定的替換。我不知道這是否模糊。

免責聲明:我是UIMA魯塔開發商