2015-09-09 27 views
0

我有一些文字查找文本在HTML與正則表達式

Trotz­dem gibt es Unter­su­chun­gen, die nahe­le­gen, dass bis zu 20% der Stu­die­ren­den in Deutsch­land wäh­rend der Prü­fungs­vor­be­rei­tung Rita­lin ein­schmeis­sen [2], Repor­ta­gen, dass bri­ti­sche Stu­die­rende Moda­fi­nil bes­tens ken­nen[3] und Stu­die­rende welt­weit auch nach der Silk Road — einem mitt­ler­weile ein­ge­stell­ten Schwarz­markt im Deep Web – mit ille­ga­len „Nootro­pics「 experimentieren. 

和我有一些HTML

<p>Die <span class="caps">GDS</span> zeich­net also das Bild einer Gesell­schaft, in der Dro­gen pri­mär Rausch, Genuss und Spass sind. Tabak ist zwar das bekann­teste – und unge­sün­deste – Mit­tel gegen Stress, aber sonst sind die Leis­tungs­stei­ge­rer in der Liste weit abge­schla­gen. Trotz­dem gibt es Unter­su­chun­gen, die nahe­le­gen, dass bis zu 20% der Stu­die­ren­den in Deutsch­land wäh­rend der Prü­fungs­vor­be­rei­tung Rita­lin ein­schmeis­sen <a href="#_ftn2" name="_ftnref2">[2]</a>, Repor­ta­gen, dass bri­ti­sche Stu­die­rende Moda­fi­nil bes­tens ken­nen<a href="#_ftn3" name="_ftnref3">[3]</a> und Stu­die­rende welt­weit auch nach der <a href="https://de.wikipedia.org/wiki/Silk_Road" target="_blank">Silk Road</a> — einem mitt­ler­weile ein­ge­stell­ten Schwarz­markt im Deep Web – mit ille­ga­len „Nootro­pics「 experimentieren.</p> 

要找到在HTML文本我產生一些瘋狂的屁股正則表達式,在那裏我斯普利特空間與

\s*?(?:<\/?[^>]*?>)?\s*? 

這是在這裏看到工作的大部分時間再次加入:https://regex101.com/r/hG9lT9/1

在上面聲明的情況下,它不起作用,因爲在html標籤後面有一個逗號,並且也有不同的破折號。所以我正在尋找創建一個更一般的正則表達式來適應原因。

這裏是行不通的例子:通過https://regex101.com/r/hG9lT9/2

+6

規則1:不要使用RegEx來解析HTML。規則2:如果您仍然想用RegEx解析HTML,請參閱規則1 – freefaller

+1

@freefaller最終評論.. – SVK

+1

您可以使用JavaScript從給定的HTML字符串中獲取文本http://stackoverflow.com/questions/822452/strip- html-from-text-javascript –

回答

-4

斯普利特:<[^>]*>? (html標籤的正則表達式)

+0

請參閱上面的評論,特別是@ tasos-k對如何合法地進行評論。 – Wil