2017-06-05 32 views
1

我對數據集執行了某些計算,我需要將結果存儲在外部文件中。將數據幀導出爲數據幀格式作爲參數傳遞到下一個程序

如果它已經到了CSV,爲了進一步處理它,我不得不再次轉換成Dataframe/SFrame,這又一次增加了代碼行。

這裏的片段:

train_data = graphlab.SFrame(ratings_base) 

顯然,這是在SFrame和使用

df_train = train_data.to_dataframe() 

現在,它是在DFRAME,我需要它導出到一個文件,而不可以轉換爲DFRAME改變它的結構。由於導出的文件將用作另一個python代碼的參數。該代碼必須接受DFrame而不是CSV。

我已經在place1place2place3place4place5

附:退房 - 我還在挖掘Python的系列化,如果任何人都可以簡化
它在上下文會很有幫助

+0

這是不清楚你到底想要達到什麼目的。如果你有一個數據幀,你爲什麼需要將它導出到另一個數據幀? 「我需要將結果存儲在外部文件中」你試過泡菜嗎? – DeepSpace

+0

@DeepSpace我需要數據幀到外部文件,csv的方式完成。然後這個外部文件被計劃用於其他程序在參數中給出。我希望這消除了懷疑。 – T3J45

回答

0

我會使用HDFS格式,它是由Pandasgraphlab.SFrame和HDFS格式是非常快的身邊支持。

或者,你可以從另一個腳本Pandas.DataFrame出口泡菜文件和閱讀:

sf.to_dataframe().to_pickle(r'/path/to/pd_frame.pickle') 

讀回(來自相同或其他腳本):

​​
+0

pickle是序列化的概念,但是我想知道我是否可以在參數中傳遞pickle文件。可能嗎?如果是的話我該如何解開它? – T3J45

+0

@Tejas,在答案中有一個例子:'df = pd.read_pickle(r'/ path/to/pd_frame.pickle')' – MaxU

+0

我對通過參數傳遞它有懷疑。無論如何,我會試試看。非常感謝您的貢獻。 – T3J45

相關問題