提取部分字符串

我有一串字符（長度爲311,522）。它是.txt格式，全部在一行上。數據文件可以在here找到。我試圖將其導入成R這樣的：提取部分字符串

eya4_lagan_HM_cp <- read.table("C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt", quote="\"")

，但我得到警告消息，並沒有導入。

我需要提取這個字符串的部分。也就是說，我需要從44184提取到44216，這意味着從第44184個字符（包含）到第44216個字符（包含），然後從151795到151844等等的字符序列。

我該怎麼做？

來源

2014-01-11 user3184733

您可以加入你在說什麼錯誤封郵件信息？ –

爲什麼你認爲read.table是在這種情況下使用的正確函數？請參閱https://stackoverflow.com/questions/9068397/import-text-file-as-single-character-string以獲取類似問題 –

繼續[在我上一個問題中回答]（http://stackoverflow.com/ a/21061459/1270695），我們以「y」結束。使用'y [44184：44216]'來獲得你想要的矢量部分。 – A5C1D2H2I1M1N2O1R2T1

有關如何將文件讀入一個字符串的信息，請參閱https://stackoverflow.com/questions/9068397/import-text-file-as-single-character-string，例如，你可以使用：

fileName <- "C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt" 
theData <- readChar(fileName, file.info(fileName)$size)

另見readChar文檔。有關如何提取子字符串的信息，請參閱substr。

在你的情況，你可以使用例如：

mySubstr <- substr(theData, 44184, 44216)

來源

2014-01-11 15:07:42

提取部分字符串

回答

相關問題