請注意,您的正則表達式不允許有空格。其添加爲[\\w\\s]
:
"[A-Z][\\w\\s]+"
另外,如果你的字符串總是在以上格式,你甚至都不需要stringr
庫,使用基礎R gsub
:
s <- "<td class=\"title\"><a href=\"/title/tt0075669/\">Amar Akbar Anthony</a><div class=\"desc_preview\" title=\"10/10 votes 2\"> </div>\n</td>"
trimws(gsub("<[^>]+>","",s))
[1] "Amar Akbar Anthony"
見this online demo。 gsub("<[^>]+>","",s)
將刪除所有打開/關閉/等。標籤。
或者使用XML解析庫搶a
標籤值:
> library("XML")
> s <- "<td class=\"title\"><a href=\"/title/tt0075669/\">Amar Akbar Anthony</a><div class=\"desc_preview\" title=\"10/10 votes 2\"> </div>\n</td>"
> parsed_doc = htmlParse(s, useInternalNodes = TRUE)
> res <- getNodeSet(doc = parsed_doc, path = "//a/text()")
> plain_text <- sapply(res, xmlValue)
> plain_text
[1] "Amar Akbar Anthony"
添加一個空格 - ' 「[A-Z] [\\ W \\ S] +」' –
這是我想要的到底是什麼 –