sequencefile

    0熱度

    2回答

    我一直在試圖找到一些關於如何使用Sqoop將序列文件導出到Oracle的文檔。那可能嗎? 目前我有我的文件(在HDFS中)以基於文本的格式,我使用Sqoop將這些文件導出到某些Oracle的表格,並且它的工作正常。現在我想將文件的格式從文本更改爲序列文件或其他內容(Avro稍後)。那麼,如果我想使用Sqoop將不同的文件格式從HDFS導出到Oracle,我需要做什麼? 任何信息將不勝感激。 在此先

    2熱度

    1回答

    在Spark Java中,如何將文本文件轉換爲序列文件?下面是我的代碼: SparkConf sparkConf = new SparkConf().setAppName("txt2seq"); sparkConf.setMaster("local").set("spark.executor.memory", "1g"); sparkConf.set("spark.serial

    0熱度

    1回答

    我使用的是SequenceFileInputFormat作爲我的地圖的輸入,其中鍵爲文本,值爲文本。有106個文件它們每個都在500 MB到750 MB之間。我看到我的日誌,並說那裏的拆分數是290。 我想知道是否有辦法讓增加分割數,因爲我的工作需要花費很多時間才能運行。謝謝您的幫助。

    2熱度

    1回答

    我認爲我的代碼沒有錯,但它不能正常工作。 這是使用mapreduce的K均值聚類。 (https://github.com/30stm/K-Means-using-mapreduce/tree/master) 使用DatasetWriter.java創建數據集,並使用CreateCentroids.java創建質心。 然後,執行KMeansClusteringJob.java 此代碼在第一次迭代中

    0熱度

    1回答

    我想將一些Pig變量存儲到Hadoop SequenceFile中,以便運行外部MapReduce作業。 假設我的數據有(chararray,INT)模式: (hello,1) (test,2) (example,3) 我寫這個存儲功能: import java.io.IOException; import java.util.logging.Level; import java.ut

    1熱度

    1回答

    我嘗試...在Hadoop中確定這種情況。 什麼是最好的文件格式的Avro或SequenceFile,在HDFS的情況下存儲圖像和後處理它們,與Python? SequenceFile是面向鍵值的,所以我認爲Avro文件可以更好地工作?

    1熱度

    2回答

    我一直在尋找解析器來將生成的序列文件(.seq)轉換爲普通文本文件,以瞭解中間輸出。我很高興知道是否有人遇到過如何做到這一點。

    4熱度

    5回答

    我想從map-reduce作業中寫出一個活潑的塊壓縮序列文件。我使用Hadoop的 2.0.0-cdh4.5.0,和活潑的Java 1.0.4.1 這裏是我的代碼: package jinvestor.jhouse.mr; import java.io.ByteArrayOutputStream; import java.io.IOException; import java.io.Out

    0熱度

    1回答

    閱讀鍵值對我有JavaPairRDD採用以下格式: JavaPairRDD< String, Tuple2< String, List< String>>> myData; 我想將它保存爲一個鍵值格式(String, Tuple2< String, List< String>>)。 myData.saveAsXXXFile("output-path"); 所以我的下一份工作可能會在數據讀取

    0熱度

    1回答

    我有一個問題,我真的不知道該怎麼做。我有一個包含網頁鏈接的Hadoop序列文件。 Hadoop序列文件的每個條目,關鍵字將是一個網頁的URL,值將是它的屬性和鏈接。該值實際上是Json格式。我想讀取所有序列文件並將值傳遞給jackson解析器以獲取鏈接,但它總是失敗。這裏是我的代碼: Configuration conf = new Configuration(); Path seqFi