2013-06-04 41 views
1

我想讀了很多的txt文件是哈希標籤分隔成R.閱讀與哈希標籤(#)分隔

例如TXT文件:

Dora#58529#26/04/2012# 
Dora#58529#26/04/2012# 
Dora#58529#26/04/2012# 
Dora#58529#26/04/2012# 
Dora#58529#26/04/2012# 
Dora#58529#26/04/2012# 
Dora#58529#26/04/2012# 
Dora#58529#26/04/2012# 
Dora#58529#26/04/2012# 

當我嘗試以下僅加載第一列,可能是因爲第一個散列標記之後的所有內容都被解釋爲註釋。

(df <- read.table("https://dl.dropboxusercontent.com/u/64191100/hashtagdel.txt",sep="#")) 

輸出:

#  V1 
# 1 Dora 
# 2 Dora 
# 3 Dora 
# 4 Dora 
# 5 Dora 
# 6 Dora 
# 7 Dora 
# 8 Dora 
# 9 Dora 

我不想被其他字符改變每一個文件的哈希標籤(我沒有創建的文件)。有人知道解決方法嗎?

+3

其實,這個問題可能會有所幫助:http://stackoverflow.com/questions/9789282/read-表而-使用 - 作爲定界符不 - 不工作?RQ = 1 – Thomas

回答

6

?read.table來自:

comment.char 字符:包含單個字符或空字符串長度爲1的字符向量。使用「」來完全關閉註釋的解釋。

所以,你要像read.table(*, sep="#", comment.char="")

5

使用read.delim,而不是...

df <- read.delim("https://dl.dropboxusercontent.com/u/64191100/hashtagdel.txt" , header = FALSE , sep="#") 
df 
# V1 V2   V3 V4 
#1 Dora 58529 26/04/2012 NA 
#2 Dora 58529 26/04/2012 NA 
#3 Dora 58529 26/04/2012 NA 
#4 Dora 58529 26/04/2012 NA 
#5 Dora 58529 26/04/2012 NA 
#6 Dora 58529 26/04/2012 NA 
#7 Dora 58529 26/04/2012 NA 
#8 Dora 58529 26/04/2012 NA 
#9 Dora 58529 26/04/2012 NA