2014-10-30 39 views
0

我正在使用命名實體分類器來檢測文本中的藝術家。目前我想檢測重複出現的文字中的圖案。重複字符串後的特定字符

11.20.12 Dillon Francis + Clockwork///Trees . 
11.24.12 Michael Woods///Lizard Lounge . 
12.08.12 Flosstradamus///Lizard Lounge . 
12.14.12 Mat Zo///Lizard Lounge . 
12.31.12 New Years Eve with BT///Lizard Lounge . 

在我能夠檢測的命名實體的文字:

11.20.12 Dillon Francis + Clockwork///Trees . 
[Dillon Francis] 
11.24.12 Michael Woods///Lizard Lounge . 
[Michael Woods, Lounge] 
12.08.12 Flosstradamus///Lizard Lounge . 
[Lizard Lounge] 
12.14.12 Mat Zo///Lizard Lounge . 
[Lizard Lounge] 
12.31.12 New Years Eve with BT///Lizard Lounge . 
[Lizard Lounge] 

我想用正則表達式,如果該模式被反覆多次檢測。所以當狄龍弗朗西斯被發現後,我發現在命名實體使用特殊字符之後,除了和。 所以它的

[named entity][special chars] [ words ] endline 

我怎樣才能把這個翻譯成正則表達式?

我已經試過:

([named entity])*([^\\dA-Za-z : , \\. ]) 
[^(Dillon Francis)]*[^a-zA-Z0-9] 

輸出是真還是假。

+0

我did'nt知道你在輸出想要的東西... – Sly 2014-10-30 11:42:19

+0

如果句中有[特殊字符] [詞]中的[命名實體]後。它不是必須返回一個真實或假的 – 2014-10-30 12:39:31

+1

這樣的事情? http://regex101.com/r/nT7wN8/1 – Sly 2014-10-30 15:03:01

回答

1

事情是這樣的:

^[0-9.]{8}\s(Dillon Francis|Michael Woods|Mat Zo)[ \/+]+([A-Za-z0-9 .]+)$ 

Demo here