我想從R中讀取一個巨大的csv文件,但是我遇到了麻煩,因爲假設爲字符串格式的列的元素沒有用引號分隔並且每次有新行時都會創建一個新行。我的數據由〜分隔。在R中沒有引號的read.csv行
例如,我的數據看起來類似於這樣:
a ~ b ~ c ~ d ~ e
1 ~ name1 ~ This is a paragraph.
This is a second paragraph.
~ num1 ~ num2 ~
2 ~ name2 ~ This is an new set of paragraph.
~ num1 ~ num2 ~
我希望能得到這樣的:
a | b | c | d | e | ____________________________________________________________________________________ 1 | name1 | This is a paragraph. This is a second paragraph. | num1 | num2 | 2 | name2 | This is a new set of paragraph. | num1 | num2 |
但我結束了這樣的事情醜陋:
a | b | c | d | e | __________________________________________________________________________________ 1 | name1 | This is a paragraph. | | | This is a second paragraph | | | | | | num1 | num2 2 | name2 | This is a new set of paragraph. | num1 | num2 |
我試圖在read.csv中設置allowEscapes = TRUE,但那並沒有辦法。我輸入目前看起來是這樣的:
read.csv(filename, header = T, sep = '~', stringAsFactors = F, fileEncoding = "latin1", quote = "", strip.white = TRUE)
我的下一個想法是每個〜之後插入一個報價,但我希望,看看是否有更好的方法。
任何幫助,將不勝感激。
歡迎來到SO。請提供樣本數據 – Metrics
每行以'〜'結尾,對嗎? – zero323
@Metrics:我無法真正提供樣本數據,因爲1)它很大而且雜亂,2)我通過我的主管的數據庫獲取它,並且無法真正複製和粘貼數據。但是這個例子應該接近數據 – samuraiexe