0
我正在使用網站收穫(http://web-harvest.sourceforge.net/),這是一個開源的網頁抓取工具。在Web Harvest中創建包含特殊字符的正則表達式
我試圖使用的正則表達式有「<」,「>」字符(因爲我試圖去掉所有進入的HTML標籤)。這會導致問題,因爲元素的內容必須包含格式正確的字符數據或標記。
我需要以某種方式逃避正則表達式,但無法弄清楚如何。
任何想法?
我正在使用網站收穫(http://web-harvest.sourceforge.net/),這是一個開源的網頁抓取工具。在Web Harvest中創建包含特殊字符的正則表達式
我試圖使用的正則表達式有「<」,「>」字符(因爲我試圖去掉所有進入的HTML標籤)。這會導致問題,因爲元素的內容必須包含格式正確的字符數據或標記。
我需要以某種方式逃避正則表達式,但無法弄清楚如何。
任何想法?
使正則表達式格式良好的XML。嘗試用<
和>
替換<
與>
。同樣,如果您的正則表達式中有&
,則需要用&
替換。
此外,我建議你使用HTML解析器,而不是正則表達式來完成此任務。
HTML解析是一個解決的問題。考慮你是否真的需要使用正則表達式重新創建解決方案。強制性的SO鏈接:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – jasso 2011-02-10 21:08:56