我試圖將文本文件導入到R中,並將其與其他數據一起放入數據框中。R中的數據導入分隔符問題
我的分隔符是"|"
和我的數據樣本是在這裏:
|無痛辦理登機手續。 AC上的兩條腿:AC105,YYZ-YVR。寬敞而乾淨的A321與奇妙的船員。 AC33:YVR-SYD, 非常輕的負載,並有3個席位給我自己。像往常一樣,我非常熱情友好的工作人員每年參加幾次這個太平洋航線。提前20分鐘到達。我們的國旗航空公司加拿大航空公司的 的預期高水平服務。 Altitude Elite會員。 |我們最近從都柏林返回多倫多,然後返回溫尼伯。除了削減它關閉由於有限的 在多倫多的工作人員,我們的飛行非常好。由於在多倫多匆匆忙忙,我們的一個隨行人員被放入 貨艙。當我們抵達溫尼伯時,它住在多倫多,他們在溫尼伯 機場最有幫助和善良,我們第二天接到3個電話,關於錯放的包,它被送到我們的家 。我們非常感謝並感謝我們收到的服務,這是一個美好假期的完美結局。 |飛往希思羅機場的多倫多。遠比出路更糟糕的飛行。我們爲出口座位付了很高的額外費用,其中 沒有任何存儲,甚至沒有座位下的任何房間。荒謬。船員很窮,不友善。一位 年長的男性工作人員態度很好,就好像他正在通過爲他們服務 來幫助每個人一樣。一頓合理的晚餐,但早餐是一塊香蕉麪包。而已!最糟糕的航空公司早餐 我有。
正如你所看到的,有很多"|"
,但正如下面的屏幕截圖所示,當我在R中導入數據時,它只分離了一次,而不是大約152次。
如何在數據框內的不同列中獲取每段單獨的文本?我想長度152的數據幀,而不是2
編輯:代碼行是:
myData <- read.table("C:/Users/Norbert/Desktop/research/Important files/Airline Reviews/Reviews/air_can_Review.txt", sep="|",quote=NULL, comment='',fill = TRUE, header=FALSE)
length(myData)
[1] 2
class(myData)
[1] "data.frame"
str(myData)
'data.frame': 1244 obs. of 2 variables:
$ V1: Factor w/ 1093 levels "","'delayed' on departure (I reference flights between March 2014 and January 2015 in this regard: Denver, SFO,",..: 210 367 698 853 1 344 483 87 757 52 ...
$ V2: Factor w/ 154 levels ""," hotel","5/9/2014, LHR to Vancouver, AC855. 23/9/2014, Vancouver to LHR, AC854. For Economy the leg room was OK compared to",..: 1 1 1 1 78 1 1 1 1 1 ...
myDataFrame <- data.frame(text = myData, otherVar2 = 1, otherVar2 = "blue", stringsAsFactors = FALSE)
str(myDataFrame)
'data.frame': 531 obs. of 3 variables:
$ text : chr "BRU-YUL, May 26th, A330-300. Departed on-time, landed 30 minutes late due to strong winds, nice flight, food" "excellent, cabin-crew smiling and attentive except for one old lady throwing meal trays like boomerangs. Seat-" "pitch was very generous, comfortable seat, IFE a bit outdated but selection was Okay. Air Canadas problem is\nthat the new pro"| __truncated__ "" ...
$ otherVar2 : num 1 1 1 1 1 1 1 1 1 1 ...
$ otherVar2.1: chr "blue" "blue" "blue" "blue" ...
length(myDataFrame)
[1] 3
看看[這裏](http://stackoverflow.com/questions/24679042/problems-with-reading-a-txt-file-eof-within-quoted-string)。你可能需要在read.table()中添加兩個參數:'quote = NULL,comment =''' – Parfait
@Parfait它工作正常,但警告信息消失了。數據幀的長度仍然是2,當它應該是152 –
'str(myData)'輸出什麼? – Parfait