我需要讀幾個巨大的(> 400MB)CSV日誌文件到R的文件看起來像:讀取龐大的CSV文件非法EOL標記
ňVISIT_DATE REQ_URL TYPE_LEVEL
126424一分之二千〇一十三/ 25 23點42分34秒1 http://weibo.cn/attgroup/privateAtt?cat=user&f=atts
33559 2013年1月25日十五點15分54秒1 http://i.ifeng.com/mil/mili?vt=5&dh=touch&mid=aKUiAg
我使用下面的命令來閱讀下載csv文件的內容。它適用於大多數數據。但是,REQ_URL
字段中有一些非法字符,如http://some.url/query=_1A_
,其中1A是十六進制代碼,與LF標記十分相似。似乎scan
函數將這些字符視爲EOL標記,並在遇到它們時停止。有什麼辦法讓R忽略這些字符或被當作EOL標記嗎?謝謝。
DAT <〜掃描(文件= 'sample.sv', 什麼=列表( 「整數」, 「數字」, 「字符」, 「整數」), 月= '\ t' 的條。白= T,報價= 「」, multi.line = F,跳過= 1)
爲什麼不在這裏使用'read.table'? – agstudy 2013-04-05 18:44:09
日誌文件的大小很大(> 400MB),'read.table'可能導致R崩潰。 – baidao 2013-04-06 03:30:08