我有兩個CSV文件,工作字的最大發生R中的新列。它們的格式是這樣的:添加基於從CSV
File 1
able,2
gobble,3
highway,3
test,6
zoo,10
File 2
able,6
gobble,10
highway,3
speed,7
test,8
upper,3
zoo,10
在我的節目,我想做到以下幾點:
的價值觀從兩個CSV文件相結合,並只保留唯一關鍵字
創建關鍵字列表
該關鍵字列表進行比較,以每個單獨CSV文件,以確定某個特定關鍵字的出現次數的最大數量,然後附加信息的關鍵字列表。
我已經完成了第一步。
我收到由R讀取事情矢量/因素/數據幀等迷茫......而「強迫名單」。例如,在上面給我的文件,這個詞的最大出現「狼吞虎嚥」應該是10(其值是文件1 3和10中的文件2)
所以基本上兩件事情需要發生。首先,我需要在「關鍵字」中創建一個列,其中包含CSV文件中單詞出現次數的最大值。其次,我需要用最大值填充該列。
這裏是我的代碼:
# Read in individual data sets
keywordset1=as.character(read.csv("set1.csv",header=FALSE,sep=",")$V1)
keywordset2=as.character(read.csv("set2.csv",header=FALSE,sep=",")$V1)
exclude_list=as.character(read.csv("exclude.csv",header=FALSE,sep=",")$V1)
# Sort, capitalize, and keep unique values from the two keyword sets
keywords <- sapply(unique(sort(c(keywordset1, keywordset2))), toupper)
# Keep keywords greater than 2 characters in length (basically exclude in at etc...)
keywords <- keywords[nchar(keywords) > 2]
# Keep keywords that are not in the exclude list
keywords <- setdiff(keywords, sapply(exclude_list, toupper))
# HERE IS WHERE I NEED HELP
# Compare the read keyword list to the master keyword list
# and keep the frequency column
key1=read.csv("set1.csv",header=FALSE,sep=",")
key1$V1=sapply(key1[[1]], toupper)
keywords$V2=key1[which(keywords[[1]] %in% key1$V1),2]
return(keywords)