感謝您幫助我解決這個問題。
我有一組超過5000個URL的列表,我有興趣刮。我已經使用lapply和readlines方法提取使用下面的示例代碼這些網頁的文字:
multipleURL <- c("http://dailymed.nlm.nih.gov/dailymed/lookup.cfm?ndc=0002-1200&start=1&labeltype=all", "http://dailymed.nlm.nih.gov/dailymed/lookup.cfm?ndc=0002-1407&start=1&labeltype=all", "http://dailymed.nlm.nih.gov/dailymed/lookup.cfm?ndc=0002-1975&start=1&labeltype=all")
multipleText <- lapply(multipleURL, readLines)
現在我想查詢每個這些文本的單詞「放射性」。我在,如果這個詞在文中提到,並已使用邏輯grep命令找出根本感興趣的是:當我算在我們的名單包含單詞的項目數
radioactive <- grepl("radioactive" , multipleText, ignore.case = TRUE)
「放射性」返回計數0:
count(radioactive)
x freq
1 FALSE 3
然而,網頁的各URL的粗略審查不過表明,第一個鏈接(http://dailymed.nlm.nih.gov/dailymed/lookup.cfm?ndc=0002-1200&start=1&labeltype=all)事實上確實含有放射性字。我們的「多文本」列表甚至包括放射性這個詞,儘管我們的grepl命令似乎沒有提到它。
任何想法我做錯了將不勝感激。
非常感謝,
克里斯
你是否試圖用正則表達式解析HTML?也許你應該閱讀[this](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)。 – agstudy