2016-02-26 90 views

回答

0

當談到上傳數據集到WSO2機器學習者,我們給出了三個選項。

  1. 從本地文件系統上傳文件。正如您所提到的,最大上傳限制保持爲100MB,您可以通過將-Dog.apache.cxf.io.CachedOutputStream.Threshold選項設置爲wso2server.dat文件來增加限制。我們已經用1GB文件測試了這個功能。但是,對於大文件,我們不建議使用此選項。此功能的主要用例是允許用戶快速嘗試使用小數據集的一些機器學習算法。

由於您正在處理大型數據集,因此我們建議您採用以下兩種方法將數據集上傳到WSO2 ML服務器。

  1. 使用Hadoop文件系統(HDFS)上傳數據。我們在文檔[1]中詳細描述瞭如何在WSO2 ML中使用HDFS文件。

  2. 如果您已經啓動並運行WSO2 DAS實例,通過將WSO2 ML與WSO2 DAS集成,您可以在WSO2 ML的「創建數據集」嚮導中輕鬆地指出DAS表作爲源類型。有關將WSO2 ML與WSO2 DAS集成的更多詳細信息,請參閱[2]。

如果您需要關於此問題的更多幫助,請讓我知道。

[1]。 https://docs.wso2.com/display/ML100/HDFS+Support

[2]。 https://docs.wso2.com/display/ML110/Integration+with+WSO2+Data+Analytics+Server

+0

感謝Upul,什麼是使用DAS你已經嘗試過的最大的數據集大小? –

+0

如果您碰巧使用HDP(Hortonworks)作爲HDFS解決方案的一部分,那麼您可能需要在此情況下通過IPC使用8020的NameNode端口,即hdfs:// hostname:8020/samples/data/wdbcSample.csv。 由於我仍然害怕如果要創建的數據集大於1 GB或10 GB,因此我仍然害怕破壞WSO2 ML服務器,但不確定使用此HDFS方法在WSO2 ML上創建數據集的最大數據文件限制是多少。有關WSO2 ML容量限制的任何想法? –

+0

您好......如果我正在使用內嵌的Spark服務器與WSO2 ML安裝捆綁在一起,那麼在開始從DAS創建數據集之前,如何首先將我的數據文件加載到本地WSO2 DAS數據表中?請幫忙。 –

0

對於那些希望使用HDP(Hortonworks)作爲HDFS解決方案的一部分,通過IPC使用8020的NameNode端口加載WSO2 ML的大型數據集,即hdfs:// hostname:8020/samples /數據/ wdbcSample.csv,可能還需要使用下面的Java客戶端在第一時間攝取這樣的數據文件到HDFS:

public static void main(String[] args) throws Exception { 

    Configuration configuration = new Configuration(); 

    FileSystem hdfs = FileSystem.get(new URI("hdfs://hostname:8020"), configuration); 
    Path dstPath = new Path("hdfs://hostname:8020/samples/data/wdbcSample.csv"); 

    if (hdfs.exists(dstPath)) { 
     hdfs.delete(dstPath, true); 
    } else { 
     System.out.println("No such destination ..."); 
    } 
    Path srcPath = new Path("wdbcSample.csv"); // a local file path on the client side 

    try { 
     hdfs.copyFromLocalFile(srcPath, dstPath); 
     System.out.println("Done successfully ..."); 
    } catch (Exception ex) { 
     ex.printStackTrace(); 
    } finally { 
     hdfs.close(); 
    } 
} 
相關問題