2016-09-23 83 views
0

世界,在Apache Spark Scala中,如何從CSV中填充DataFrame中的Vectors.dense?

我是新來的火花。

我注意到本次網上例子:

http://spark.apache.org/docs/latest/ml-pipeline.html

我很好奇這句法:

// Prepare training data from a list of (label, features) tuples. 
val training = spark.createDataFrame(Seq(
    (1.0, Vectors.dense(0.0, 1.1, 0.1)), 
    (0.0, Vectors.dense(2.0, 1.0, -1.0)), 
    (0.0, Vectors.dense(2.0, 1.3, 1.0)), 
    (1.0, Vectors.dense(0.0, 1.2, -0.5)) 
)).toDF("label", "features") 

是否有可能取代一些語法,從CSV讀取值以上的呼叫?

我想要一些與Python-Pandas read_csv()方法相媲美的東西。

+0

是的,你到目前爲止嘗試過什麼? – eliasah

+0

@eliasah並非如此。 'VectorUDT'不能直接用csv表示,可以嗎? – zero323

+1

@ zero323它不能直接表示,但很容易做到。但我想知道OP是否嘗試了一些東西,或者他只是在尋找一個人來完成他的工作。 – eliasah

回答

0

答案:是的,這是可能的

如果CSV是HDFS,你可以使用火花CSV閱讀它:你可以只讀取如果用普通斯卡拉普通的文件系統example,或者其:example

+0

有沒有一個例子不在註冊牆後面? –

相關問題