我一直在研究這一課的問題,最後得到了測驗所需的答案。對於R來說,我還不太熟悉,但是這需要幾個小時才能理解。我的任務是從叢林找到名稱Jurgis,Ona和Chicago的所有事件。R:查找名稱的所有匹配項
問題:我浪費了很多時間使用GSUB去除標點符號,但後來意識到,有些要素是兩個字:「Jurgis讀」會凝結成「Jurgisread」,不會拿起計數。然後有「Jurgis」凝聚到Ona和芝加哥市的「Jurgiss」等。
想:關於如何在將來更好地處理這些類型的文件的一些提示。
我做了什麼:我得到了開頭的兩行代碼。我使用它們附帶的空格分割元素。然後,我選擇了我想要刪除的標點符號。一旦我移除,我認爲,將是所有常見的,並用空格替換它們,再次分割元素。最後,我table()並強迫所有的單詞都是大寫字母。
theJungle <- readLines("http://www.gutenberg.org/files/140/140.txt")
theJungleList <- unlist(strsplit(theJungle[47:13872], " "))
splitJungle1<-unlist(strsplit(theJungleList, "[[:space:]]", fixed = FALSE,
perl = FALSE, useBytes = FALSE))
remPunctuation<-gsub("-|'|,|:|;|\\.|\\*|\\(|\"|!|\\?"," ",splitJungle1)
splitJungle2<-unlist(strsplit(remPunctuation, "[[:space:]]", fixed = FALSE, perl
= FALSE, useBytes = FALSE))
table(toupper(splitJungle2)=="JURGIS")
table(toupper(splitJungle2)=="ONA")
table(toupper(splitJungle2)=="CHICAGO")
謝謝!
請參閱:爲什麼「有人能幫助我嗎?」不是一個實際的問題?(http://meta.stackoverflow.com/q/284236) – EJoshuaS