2013-11-14 51 views
0

我有一個很難得到這個..正則表達式的表的innerHTML來發現特殊charcters

我有這樣的HTML代碼:

<table border='1'><tr><th></th><th>Fact Questions Report Type Count</th></tr><tr> 
<td class=' sorting_1'>0 - 18</td><td>78</td></tr><tr><td class=' sorting_1'>19-64</td> 
<td>78</td></tr><tr><td class=' sorting_1'>65+</td><td>78</td></tr><tr> 
<td class=' sorting_1'>אין גיל</td><td>78</td></tr><tr><td class=' sorting_1'>נפטר</td> 
<td>78</td></tr><tr><td class=' sorting_1'>Unknown</td><td>78</td></tr></table> 

正如你看到的有特殊字符我想趕上像:

אין גילנפטר

我認爲做一個正則表達式,這將排除所有的話\W一第二號\D和those->=|'

但我不能得到它的工作..

的完美解決方案將獲得兩個項目進行專項charcters ... אין גילנפטר

PS:可能有其他特殊charcters

我會喜歡看到這個在這裏一個例子:RegexPal - Online Editor

TNX!

+0

這可能嚴重依賴於您使用的正則表達式引擎。 PHP? C#? Java的? –

回答

2

如果你想在希伯來語趕上字符具體情況,你可以嘗試

[\u0590-\u05FF\s]+ 

假設有空格,或者,如果使用的是更先進的正則表達式引擎,

[\p{Hebrew}\s]+ 

如果你實際上試圖抓住非英文但可打印的字符,然後很難在沒有看到你嘗試過的情況下幫助你。 \D\W的一個子集,所以你應該只需要\W+,或者如果我正確理解你的意圖,那麼你也想排除->=|',然後[^\w>=|-]+(破折號必須在最後(或者在^之後的第二位))。

1

我想做一個正則表達式,將排除\ W和數字的所有單詞\ D和那些= |'

只要做到這一點:[^\w\d=|']+

Regular expression visualization

請注意,您不能使用[^\W]:因爲\W手段除\w,[^\W]之外的任何物體除\w之外都不包含任何物體,即\w- x - = +)。