hadoop

    0熱度

    1回答

    我正在使用名爲Spyder的Python IDE中的Apache SPARK和Python(pyspark)。我試圖加載從HDFS像這樣的文件: hdfs_file = sc.textFile(hdfs_path) 我確保路徑是正確的,該文件存在,但是當我執行命令我得到一個錯誤行: Py4JJavaError: An error occurred while calling o24.parti

    2熱度

    1回答

    情況如何? 我有一萬個CSV文件(每個250kb - 270kb),我想用Spark(Pyspark精確地)處理。每個CSV文件都代表一個特定事件的過程數據。你可以說一個CSV文件代表一個對象。由於我想將數據存儲在HDFS上,所以我必須找到連接數據的方式(因爲在HDFS上存儲大量微小數據效率不高)。 一個CSV文件的片段(簡化)。 Time Module v1 v2 v3 v4 v5 v6

    0熱度

    1回答

    我正在嘗試設置從控制檯Kafka生產者到Hadoop文件系統(HDFS)的簡單數據管道。我正在開發一款64位的Ubuntu虛擬機,並按照我所遵循的指南的建議,爲Hadoop和Kafka創建了單獨的用戶。使用控制檯消費者在卡夫卡消費生產的輸入,並且HDFS似乎正在運行。 現在我想使用Flume將輸入傳送到HDFS。我使用下面的配置文件: tier1.sources = source1 tier1.

    0熱度

    1回答

    我有以下文件夾中HDFS: hdfs://x.x.x.x:8020/Air/BOOK/AE/DOM/20171001/2017100101 hdfs://x.x.x.x:8020/Air/BOOK/AE/INT/20171001/2017100101 hdfs://x.x.x.x:8020/Air/BOOK/BH/INT/20171001/2017100101 hdfs://x.x.x.x:

    1熱度

    1回答

    的join documentation爲蜂巢鼓勵使用隱式連接,即 SELECT * FROM table1 t1, table2 t2, table3 t3 WHERE t1.id = t2.id AND t2.id = t3.id AND t1.zipcode = '02535'; 這是相當於 SELECT t1.*, t2.*, t3.* FROM table1 t1 INNER

    -2熱度

    1回答

    我有一個問題與MAP Reduce,這是我沒有找到任何解決辦法呢, 在REDUCE方法,我只能走MAX,或MIN,當我嘗試將它們串聯在一個TEXT,我有一個錯誤,它不起作用 請有人幫助我tkx!

    0熱度

    1回答

    我的映射類將輸出鍵值對,如: abc 1 abc 2 abc 1 我要合併的值,並計算出同一對減速機類的使用HashMap發生,輸出像: abc 1:2 2:1 但我的輸出結果是: abc 1:2:1 2:1:1 感覺就像還有額外的字符串與輸出連接,但我不知道爲什麼。 這裏是我的代碼: Text combiner = new Text(); StringBuilder strBu

    0熱度

    1回答

    我在解密&對大文件執行一些基本操作時遇到gpg解密問題。解密後的正常解密文件爲60G &,其膨脹至450G。 解密,然後rowcount(wc -l)只在HDFS層內完成;以下是代碼片段 rowCount=`hdfs dfs -cat ${hdfsDir}/{fileName} | decrypt | wc -l` 上面的「解密」應該由gpg --decrypt ...命令替換。我沒有寫在這裏

    0熱度

    1回答

    兩個表table1中和表2 hive> select * from table1 where dt=20171020; OK a 1 1 p 10 20171020 b 2 2 q 10 20171020 c 3 3 r 10 20171020 d 4 4 r 10 20171020 hive> select * from table2 where dt=20171020; OK

    1熱度

    1回答

    我在學習hadoop,只知道Java的基本概念。在學習hadoop時,我發現hadoop使用自己的類型,如Longwritable,Text etch,它們是Java的基本類型的擴展或包裝版本。 我在java社區發佈這個問題,因爲我認爲這些是唯一能清除我的疑惑的人。 我打算在全球範圍內理解這個概念,不僅因爲它與hadoop相關,而且它的聲音對我來說非常有趣,並且可以在任何不在hadoop中的地方使