2014-01-11 186 views
1

我有一串字符(長度爲311,522)。它是.txt格式,全部在一行上。數據文件可以在here找到。我試圖將其導入成R這樣的:提取部分字符串

eya4_lagan_HM_cp <- read.table("C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt", quote="\"")

,但我得到警告消息,並沒有導入。

我需要提取這個字符串的部分。也就是說,我需要從44184提取到44216,這意味着從第44184個字符(包含)到第44216個字符(包含),然後從151795到151844等等的字符序列。

我該怎麼做?

+0

您可以加入你在說什麼錯誤封郵件信息? –

+0

爲什麼你認爲read.table是在這種情況下使用的正確函數?請參閱https://stackoverflow.com/questions/9068397/import-text-file-as-single-character-string以獲取類似問題 –

+0

繼續[在我上一個問題中回答](http://stackoverflow.com/ a/21061459/1270695),我們以「y」結束。使用'y [44184:44216]'來獲得你想要的矢量部分。 – A5C1D2H2I1M1N2O1R2T1

回答

1

有關如何將文件讀入一個字符串的信息,請參閱https://stackoverflow.com/questions/9068397/import-text-file-as-single-character-string,例如,你可以使用:

fileName <- "C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt" 
theData <- readChar(fileName, file.info(fileName)$size) 

另見readChar文檔。有關如何提取子字符串的信息,請參閱substr

在你的情況,你可以使用例如:

mySubstr <- substr(theData, 44184, 44216)