hdfs

0熱度

1回答

我在解密&對大文件執行一些基本操作時遇到gpg解密問題。解密後的正常解密文件爲60G &，其膨脹至450G。解密，然後rowcount（wc -l）只在HDFS層內完成;以下是代碼片段 rowCount=`hdfs dfs -cat ${hdfsDir}/{fileName} | decrypt | wc -l` 上面的「解密」應該由gpg --decrypt ...命令替換。我沒有寫在這裏

1熱度

1回答

在Apache Spark中使用的HDFS-GPFS連接器

是否有可能從Apache Spark中的IBM GPFS（全局並行文件系統）中讀取數據？我的目的是用這樣的 sc.textFile("gfps://...") 代替 sc.textFile("hdfs://...") 是打算採用的是Hortonworks數據平臺的環境。我讀過一些articles, deploying IBM Spectrum Scale File System，說你可以

0熱度

1回答

如何將文件從本地筆記本電腦放到遠程HDFS？

我的Hadoop 2.8.1 可配置HDFS-site.xml中 <configuration> # Add the following inside the configuration tag <property> <name>dfs.data.dir</name> <value>/app/dfs/name/data</value> <final>true

1熱度

1回答

爲什麼我應該避免在Hadoop HDFS中存儲大量小文件？

我讀過很多存儲在HDFS中的小文件，因爲大量的小文件意味着大量的對象Hadoop NameNode內存。但是由於每個塊都作爲一個對象存儲在命名節點中，它對於一個大文件有何不同？無論您是從內存中的單個文件存儲1000個塊還是1000個文件存儲1000個塊，使用的NameNode內存量是否相同？對於地圖工作類似的問題。由於它們在塊上運行，如果塊是小文件還是大塊文件，它們有什麼關係？

0熱度

1回答

如何將文件「file1.txt」從本地複製到具有不同名稱的hadoop？

我需要將文件file1.txt從本地複製到hadoop，我想在hadoop中使用不同名稱（如「test.txt」）的「file1.txt」。 Hoow能實現嗎？

0熱度

1回答

複製的Json從本地平面文件到HDFS

package com.Main; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.URI;

0熱度

2回答

多個文件作爲輸入到Hadoop Dfs和mapreduce

通常我們在一個文本文件中輸入到java文件（比如簡單的字數問題）。相反，現在我有100個csv文件，我想給作爲我的java代碼的輸入（所有文件不能簡單地合併爲一個文件）。試圖預測給定100個股票的最大/最小股票波動率，因此每個csv文件是唯一的。那麼，如何將csv文件的整個文件夾作爲java程序的輸入流。

0熱度

1回答

HDFS DataNode會不會收回的本地磁盤空間，如果是一會兒

我做了POC與的Hadoop 2.9.0作爲分佈式文件存儲系統，因此已經建立了多節點羣集安裝有1個NameNode和重新啓動後4複製因子爲2的數據節點（包括主節點）。現在，經過一系列複製操作後，我決定停止其中一個數據節點（slave2）。然後我使用hdfs dfs -rm -skipTrash命令清除了幾GB的數據，而slave2仍然關閉。後來我重新啓動了我停止的slave2 datanode

0熱度

1回答

訪問hdfs上名稱前帶空格的文件夾中的數據

我在HDFS上有一個路徑爲/user/xyz/ data的目錄我無法訪問它。他們的我已經試過 hdfs dfs -ls /user/xyz/ data hdfs dfs -ls "/user/xyz/ data" hdfs dfs -ls "/user/xyz/ *data" hdfs dfs -ls "/user/xyz/\ data" 都不是匹配的。什麼是訪問它的最佳方

0熱度

1回答

Shell腳本單獨運行但不能生成正確的結果作爲crontab作業

我需要實現一個用例，我需要用來自任何源系統的hdfs文件夾中的最新文件更新配置單元表。我沒有在這裏使用sqoop。我應該定期從源系統接收更新的文件到特定的HDFS位置（比如/tmp/emp.csv）。我已經在配置單元中創建了託管/內部表，並且第一次手動將數據加載到該表中。因此，我的最新員工表（在配置單元中創建，倉庫位於默認位置 -/user/hive/warehouse）將擁有emp.csv文