2016-12-02 41 views
1

給定像"Whatup &nbsp; <b>whatever<b> \n"這樣的字符串,我需要將它變成「Whatup whatever」。刪除字符串中的所有非alpha字符,包括  &或任何代碼

我很接近我的下面的方法,但我找不到一個好方法來刪除動態&amp;&nbsp;類型代碼。我不想每個都出現gsub(就像我用逗號做的那樣) - 有成千上萬的行和許多不同的代碼在裏面...... blah

任何指針都是受歡迎的。

def self.clean_string(st) 
    return strip_tags(st).force_encoding("UTF-8").gsub(",","").squish if st and st != "" 
    end 

回答

1

對於HTML實體,添加此正則表達式替換:

.gsub(/&[^;]+;/, '') 

它會從文本中刪除任何&amp;式的實體。

+0

應該工作。我可能會發現它也找不到分號。我們的數據被ppl標記,不寫代碼 – jahrichie

相關問題