我正在處理一個專門的文本文件,它基本上是一長串名稱和與每個名稱關聯的字母的隨機序列。我試圖提取我感興趣的特定共識序列。序列是,可以說「STXDXIK」,其中X是任何字母。我將該文本文件轉換爲R並將其命名爲「TEXT」。如何提取與正則表達式(regexpr)索引有關的文本R
然後我使用正則表達式來隔離包含序列的條目列表,將其稱爲「ylist」。
ylist<- TEXT[grep("ST[A-Z]D[A-Z]IK", TEXT, value=FALSE, perl=FALSE)]
然後我用regexpr函數找到我感興趣的序列的位置,稱之爲「r」。
r<- regexpr("ST[A-Z]D[A-Z]IK", ylist)
現在的問題是,我得到的位置的索引,該序列在於,與起始位置和匹配的數量。不過,我有興趣提取完整的序列,而不是從「ylist」的索引,因爲它對我來說很重要,全長序列是什麼。誰能幫忙?
我已經在R中嘗試了substr和regmatches函數,但substr必須應用於每個匹配,這對我來說並不實用,因爲我有許多與此序列匹配的匹配,並且regmatches似乎無法工作,讓它工作,也許是因爲我輸入了錯誤的命令。
爲什麼你創建'ylist'?是不是'r < - regexpr(「ST [A-z] D [A-z] IK」,TEXT)'夠了? – sgibb