我想使用Ruby來清理其標籤的HTML頁面。 我有原始的HTML,並希望定義一個標籤列表,例如[「跨度」,「裏」,「DIV」], 和創建的正則表達式的陣列,我可以按順序運行,這樣我有紅寶石列表流暢的正則表達式
clean_text = raw.gsub(first_regex,' ').gsub(second_regex,' ')...
每個標籤兩個正則表達式(開始和結束) 。
我有辦法以編程方式執行此操作(即從標記數組預先構建正則表達式數組,然後在流暢模式下運行它們)?
編輯:我意識到我實際上一次問了兩個問題 - 第一個關於將標記列表轉換爲正則表達式列表,第二個關於調用正則表達式列表作爲流利。感謝您回答這兩個問題。我會盡量讓我的下一個問題爲單一主題。
有你想過使用適當的xml/html解析器(例如nokogiri http://nokogiri.org/)? – 2009-09-02 16:30:06
那麼,一個合適的xml/html解析器是一個更強大的解決方案,但我希望「只是文本」,願意容忍一個有點嘈雜的結果,而不必映射文檔的確切結構。 – 2009-09-03 06:05:25