2012-07-11 29 views
0

我想上傳一個CSV文件,並收到以下錯誤:CSV LOADER ERROR

weka csv loader failed to load csv file 
Wrong number of values. Read 2, expected 5, read token[EOL], line 3 

這是我的數據樣本:

1439,"@shanli4m sagen wirs so ich bin fuer ALLE andern AUSSER SPANIEN hahahhaah :-)",219886226486992900,"2012-07-08 08:17:40.079310","2012-07-08 08:17:40.141548" 
1440,"ich bin für schland=schland verliert ich bin für italien=italien verliert verkehrte welt -,-",219727870568824830,"2012-07-08 08:17:40.145610","2012-07-08 08:17:40.148478" 
1441,"RT @orbisclaudiae: ""Ich bin für Spanien, weil ich finde, dass die besser aussehen."" (Claudia H., 29, Fußballexpertin)",219544383773618180,"2012-07-08 08:17:40.151433","2012-07-08 08:17:40.153887" 
+1

我想它預計會有一個帶有5個字段的CSV,並且只能找到2個...您能否提供CSV文件的前5行? – Scharron 2012-07-11 12:45:15

+0

1439,「@ shanli4m sagen wirs so ich bin fuer ALLE andern AUSSER SPANIEN haha​​hhaah :-)」,219886226486992900,「2012-07-08 08:17:40.079310」,「2012-07-08 08:17:40.141548」 1440,「ich binfürschland = schland verliert ich binfüritalien = italien verliert verkehrte welt - , - 」,219727870568824830,「2012-07-08 08:17:40.145610」,「2012-07-08 08: 17:40.148478「 1441,」RT @orbisclaudiae:「Ich binfürSpanien,weil ich finde,dass die besser aussehen。」「(Claudia H.,29,Fußballexpertin)」,219544383773618180,「2012-07-08 08 :17:40.151433「,」2012-07-08 08:17:40.153887「 – nadine1988 2012-07-11 13:06:50

+0

這些是Twitter存儲在數據庫中的推文。 – nadine1988 2012-07-11 13:08:11

回答

1

我認爲這是由於問題在第三行:

"RT @orbisclaudiae: ""Ich bin für Spanien 

正如你可以看到前「非物質文化遺產」有兩個雙引號""。這將關閉第一部分("RT @orbisclaudiae: "),並且Weka預計逗號(,)或行末。由於它後面沒有逗號,因此Weka假定該行已完成,然後僅返回2個值而不是5個。因此,要解決此問題,請檢查數據是否有任何不一致,如多個雙引號。您可以通過用單引號(')包圍推文來輕鬆解決此問題。 Weka很可能將單引號內的所有內容都視爲1個字符串。

+0

問題的確在這裏,因爲csv解析器的一些實現通過將它們加倍來轉義引號字符,並且似乎weka csv解析器不會。 – Scharron 2012-07-11 13:31:58

+1

謝謝你的幫助。 – nadine1988 2012-07-11 13:43:18