我有一個html文件提取文本出來的「<' and '>」
我需要提取它,我想這迄今跨度標籤裏面的一些文字,但它似乎不工作:
HTML:
"<span id=\"MainContent_lblGenAssessment\">$866,250</span></dd>"
我嘗試這樣做:
gsub(x = "<span id=\"MainContent_lblGenAssessment\">$866,250</span></dd>"r,pattern = ">(.*?)<",replacement = "\\1")
但似乎沒用,我怎樣才能提取86 6,250?
編輯:它必須使用默認的R庫,我不能安裝任何軟件包。
「我無法安裝任何軟件包」這是極不可能的。 – Roland
關於這個問題的規範問題的強制性鏈接:[RegEx匹配除XHTML自包含標記之外的開放標記](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained標籤都有效)。 – sleske
正則表達式不應該在html上使用。這樣做的正確方法是安裝一個html解析包並正確執行。我推薦'XML :: xmlValue' –