我試圖解析非英文語言的內容,例如韓文,中文等。 UIMA是否有任何內置支持。在Apache UIMA門戶中,我無法獲得有關此信息的更多信息。 所有我能想到的都是unicode正則表達式模式,但即使那些由於某種原因似乎不起作用。我的正則表達式模式具有unicode字符不是註釋我需要的單詞。Apache UIMA解析多語言內容
正在使用JDK1.7,UIMA 2.4.2。
非常感謝任何幫助或建議。
下面這樣的例子我想
文字:NÚMERO日預訂新445566553代碼【本文是在我使用FileSystemCollectionReader讀文件,我已經將編碼設置爲UTF-8]
我正則表達式(= \ SCODE?)
預期輸出(< =民\ u00E9ro \ SDE \ SR \ u00E9servation \ S?)(*?):445566553
發佈正在使用的正則表達式,解析文本並突出顯示要提取的短語或詞 – alkis