我有一個很大的文本文件,它有特定的模式和格式。
我的text.txt包含
x1 `xx`nkkna`yy`taktnaknvcaklrhkahnktn, altlkhakthakd`xx`nmm cataitha`yy`knkcnaktnhakt
x2 `xx`ngkna`yy`taktnaknvcaklrhkahnktn, altlkhakthakdnmm cataithaknkcnaktnhakt
x3 `xx`nkg,kna`yy`taktnaknvcaklrhkahnktn, altlkhakthakdnmm cataithaknk`xx`cna`yy`ktnhakt
x4 nkkndataktnaknvcaklrhkahnktn, altlkhakthakdnmm cataithaknkcnaktnhakt
然後,我想問R鍵查找單詞的列表,在這種情況下是X1,X2,X3和X4 而其間的,我希望得到一個列表中的每一個,即介於「xx」和「yy」之間。
因此,其結果將是四個列表
x1 = c("nkkna", "nmm cataitha")
x2 = c("ngkna")
x3 = c("nkg,kna", "cna")
x4 = c("NA")
不過,我面臨兩個問題想請教您的幫助。
- 如何看書一個大的文本文件至R?我從計算器的命令
X <學習 - read.csv(textConnection「XXX」)可能會有幫助,但問題是我的文件太大,無法複製過去,並且該文件應被看書作爲csv。有沒有更好的方法來加載我的文本文件到R作爲一個對象,可以搜索和後來的grep?
- 如何編寫代碼來獲取這些信息?
我學會strsplit也許使用,它似乎在RCurl報廢材料中工作,它也在這裏工作嗎?如果是的話,你能介意教我嗎?
太謝謝你了.....
在第一部分,這個問題有一些很好的信息:http://stackoverflow.com/questions/1727772/quickly-reading-very - 高 - 表-AS-dataframes式-R – Chase 2011-05-31 12:36:00