刪除HTML標記+內容

好吧，就像聽起來那麼簡單，我還是不知道該怎麼做（並想象我甚至決定改變語言）。刪除HTML標記+內容

所以，我已經得到了無論是簡單的文本或包含一些標記文本（注：有些人可能不被視爲有效 html標籤，例如<ref>），我要刪除所有標籤和它們的內容。

嘗試與Nokogiri的.search("//text()").text但它仍然遠離我的需要。

想法？

P.S.我正在尋找一個防彈，100％的工作解決方案，因此正則表達式是相當出了問題......

樣品輸入/輸出

One <!-- Two -->Three

應該返回One Three 。

This is <a href='#'>some Text</a>

應該返回This is。

Even more <ref name='tag'>reference</ref><br>text

應該返回Even more text。

來源

2014-02-25 Dr.Kameleon

你能否提供一些樣本輸入/輸出。 –

@JustinWood看看我更新的問題。 –

@ Dr.Kameleon正則表達式將解決這個問題，嘗試Nokogiri好像是一種矯枉過正，我會張貼我的正則表達式答案 – bjhaid

如果你想引入nokogiri要做到這一點，你必須使用DocumentFragment類，因爲文本不是有效的HTML或XML文檔。

doc = Nokogiri::HTML::DocumentFragment.parse(text) 

puts doc.xpath("text()")

這會給你指定的輸出。

來源

2014-02-25 02:46:20

呃...太棒了。正是我需要的！多謝了朋友！ :-) –

引入nokogiri似乎是手頭的問題矯枉過正，我會使用一個正則表達式來它解決如下

input = "One <!-- Two -->Three" 
input.gsub(/(\<.+\>)/) 
#=> "One Three" 

input = "This is <a href='#'>some Text</a>" 
input.gsub(/(\<.+\>)/, "") 
#=> "This is " 

input = "Even more <ref name='tag'>reference</ref><br>text" 
input.gsub(/(\<.+\>)/, "") 
#=> "Even more text"

論證rubular

來源

2014-02-25 01:53:10 bjhaid

刪除HTML標記+內容

回答

相關問題