hdfs

    0熱度

    1回答

    我在解密&對大文件執行一些基本操作時遇到gpg解密問題。解密後的正常解密文件爲60G &,其膨脹至450G。 解密,然後rowcount(wc -l)只在HDFS層內完成;以下是代碼片段 rowCount=`hdfs dfs -cat ${hdfsDir}/{fileName} | decrypt | wc -l` 上面的「解密」應該由gpg --decrypt ...命令替換。我沒有寫在這裏

    1熱度

    1回答

    是否有可能從Apache Spark中的IBM GPFS(全局並行文件系統)中讀取數據? 我的目的是用這樣的 sc.textFile("gfps://...") 代替 sc.textFile("hdfs://...") 是打算採用的是Hortonworks數據平臺的環境。我讀過一些articles, deploying IBM Spectrum Scale File System,說你可以

    0熱度

    1回答

    我的Hadoop 2.8.1 可配置HDFS-site.xml中 <configuration> # Add the following inside the configuration tag <property> <name>dfs.data.dir</name> <value>/app/dfs/name/data</value> <final>true

    1熱度

    1回答

    我讀過很多存儲在HDFS中的小文件,因爲大量的小文件意味着大量的對象Hadoop NameNode內存。 但是由於每個塊都作爲一個對象存儲在命名節點中,它對於一個大文件有何不同?無論您是從內存中的單個文件存儲1000個塊還是1000個文件存儲1000個塊,使用的NameNode內存量是否相同? 對於地圖工作類似的問題。由於它們在塊上運行,如果塊是小文件還是大塊文件,它們有什麼關係?

    0熱度

    1回答

    我需要將文件file1.txt從本地複製到hadoop,我想在hadoop中使用不同名稱(如「test.txt」)的「file1.txt」。 Hoow能實現嗎?

    0熱度

    1回答

    package com.Main; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.URI;

    0熱度

    2回答

    通常我們在一個文本文件中輸入到java文件(比如簡單的字數問題)。相反,現在我有100個csv文件,我想給作爲我的java代碼的輸入(所有文件不能簡單地合併爲一個文件)。試圖預測給定100個股票的最大/最小股票波動率,因此每個csv文件是唯一的。 那麼,如何將csv文件的整個文件夾作爲java程序的輸入流。

    0熱度

    1回答

    我做了POC與的Hadoop 2.9.0作爲分佈式文件存儲系統,因此已經建立了多節點羣集安裝有1個NameNode和重新啓動後4複製因子爲2的數據節點(包括主節點)。 現在,經過一系列複製操作後,我決定停止其中一個數據節點(slave2)。然後我使用hdfs dfs -rm -skipTrash命令清除了幾GB的數據,而slave2仍然關閉。 後來我重新啓動了我停止的slave2 datanode

    0熱度

    1回答

    我在HDFS上有一個路徑爲/user/xyz/ data的目錄 我無法訪問它。他們的 我已經試過 hdfs dfs -ls /user/xyz/ data hdfs dfs -ls "/user/xyz/ data" hdfs dfs -ls "/user/xyz/ *data" hdfs dfs -ls "/user/xyz/\ data" 都不是匹配的。 什麼是訪問它的最佳方

    0熱度

    1回答

    我需要實現一個用例,我需要用來自任何源系統的hdfs文件夾中的最新文件更新配置單元表。我沒有在這裏使用sqoop。 我應該定期從源系統接收更新的文件到特定的HDFS位置(比如/tmp/emp.csv)。我已經在配置單元中創建了託管/內部表,並且第一次手動將數據加載到該表中。 因此,我的最新員工表(在配置單元中創建,倉庫位於默認位置 -/user/hive/warehouse)將擁有emp.csv文