好吧,就像聽起來那麼簡單,我還是不知道該怎麼做(並想象我甚至決定改變語言)。刪除HTML標記+內容
所以,我已經得到了無論是簡單的文本或包含一些標記文本(注:有些人可能不被視爲有效 html標籤,例如<ref>
),我要刪除所有標籤和它們的內容。
嘗試與Nokogiri的.search("//text()").text
但它仍然遠離我的需要。
想法?
P.S.我正在尋找一個防彈,100%的工作解決方案,因此正則表達式是相當出了問題......
樣品輸入/輸出
One <!-- Two -->Three
應該返回One Three
。
This is <a href='#'>some Text</a>
應該返回This is
。
Even more <ref name='tag'>reference</ref><br>text
應該返回Even more text
。
你能否提供一些樣本輸入/輸出。 –
@JustinWood看看我更新的問題。 –
@ Dr.Kameleon正則表達式將解決這個問題,嘗試Nokogiri好像是一種矯枉過正,我會張貼我的正則表達式答案 – bjhaid