我一直在嘗試將csv文件讀入R中,但它始終不中斷。我認爲這可能是由於文件編碼,但我不確定。輸入無效會導致read.csv中斷數據
這裏是我跑的代碼:
read.csv('crunchbase_companies_2.csv', fileEncoding="UTF-8", quote="")
然後我得到一個警告消息:In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,: invalid input found on input connection
。
R讀取數據,但只能在達到特殊字符時停止。所以我只能得到R中的部分數據。我粘貼了我在這裏得到的數據:http://pastebin.com/EQLnXz2W。請注意,雖然它會切斷「Ì」之類的內容。所以這些字符不在示例數據中。
我也檢查了在終端使用file
編碼。它返回Non-ISO extended-ASCII English text, with CR line terminators
。
我需要做什麼來讀取整個數據集?