hdfs

0熱度

1回答

爲什麼Hadoop FTPFileSystem.listStatus（路徑路徑）不起作用？

我想將文件從ftp服務器傳輸到hdfs。這個方法我試過：FTP TO HDFS，演示代碼如下： Configuration conf = new Configuration(); FTPFileSystem ftpfs = new FTPFileSystem(); ftpfs.setConf(conf); ftpfs.initialize(new URI(ftpCon

0熱度

1回答

Hadoop中名稱空間與元數據之間的區別？

我正在學習hadoop，在學習時會混淆兩個名詞空間，其次是元數據。我至今對元數據的研究是元數據是namenode服務器的一部分。它關於HDFS中所有文件的信息，複製因子，datanode的數據塊，文件權限等。這些元數據存儲在一個名爲fsimage的文件中。請糾正我是否有錯二是命名空間，關於命名空間是我唯一知道的是它只是一個文件夾結構，甚至我不知道這一點。你們能與我分享這些條款嗎？我對Names

0熱度

1回答

如何從Hadoop中的一個特定機架獲取阻止報告？

我想知道是否可以從hadoop中的一個機架獲得塊報告？我知道我可以用下面的命令一整塊報告： hdfs fsck/-files -blocks -racks 然而，當你的集羣是大，需要花費大量的時間來運行該命令。我只想看到位於特定機架中的塊。有沒有辦法只從一個機架獲取報告？（即指定架而不是路徑）在此先感謝

1熱度

2回答

在AWS中使用純python外部庫時HDFS中的權限錯誤膠水

我試圖運行自定義Python腳本，該腳本導入AWS Glue上的外部純Python庫（psycopg2），但失敗。我檢查了CloudWatch日誌，發現失敗的原因是： Spark在HDFS中的幾個文件夾上的權限檢查失敗，其中一個包含我上傳到S3的外部python庫（s3：// path /到/ psycopg2），這需要-x權限： org.apache.hadoop.security.Access

1熱度

1回答

您是否可以通過Spark工作直接讀取/寫入硬盤？

是否需要將火花作業的輸出寫入hdfs並從那裏下載。或者可以直接寫入本地文件系統。

0熱度

1回答

原始日誌的Hadoop體系結構，但也包含點擊和視圖

不確定用於以下數據的體系結構。我在看下面的數據格式和容量：在查詢字符串持有信息生API Apache日誌（每天約15G） JSON點擊和瀏覽的廣告 - 約每天3m條目。這導致我尋找設置HDFS集羣並使用fluentd或flume加載apache日誌的選項。這一切看起來不錯，但我不明白的是何時或如何解析apache日誌以從查詢字符串和路徑中提取信息。例如：「/ home/category1 /

0熱度

1回答

HDFS不復制塊

我最近安裝了Hadoop（Cloudera）。我遇到了一個錯誤，我在複製塊下（在Cloudera Manager中，它是安裝的GUI）。所以，當我運行 hdfs dfsadmin -report 我得到 Configured Capacity: 555730632704 (517.56 GB) Present Capacity: 524592504832 (488.56 GB) DFS R

0熱度

1回答

嘗試從Spyder加載HDFS文件時拒絕連接

我正在使用名爲Spyder的Python IDE中的Apache SPARK和Python（pyspark）。我試圖加載從HDFS像這樣的文件： hdfs_file = sc.textFile(hdfs_path) 我確保路徑是正確的，該文件存在，但是當我執行命令我得到一個錯誤行： Py4JJavaError: An error occurred while calling o24.parti

2熱度

1回答

如何在Hadoop HDFS上存儲數千個CSV文件

情況如何？我有一萬個CSV文件（每個250kb - 270kb），我想用Spark（Pyspark精確地）處理。每個CSV文件都代表一個特定事件的過程數據。你可以說一個CSV文件代表一個對象。由於我想將數據存儲在HDFS上，所以我必須找到連接數據的方式（因爲在HDFS上存儲大量微小數據效率不高）。一個CSV文件的片段（簡化）。 Time Module v1 v2 v3 v4 v5 v6

0熱度

1回答

來自Kafka在Flume中的EOFException

我正在嘗試設置從控制檯Kafka生產者到Hadoop文件系統（HDFS）的簡單數據管道。我正在開發一款64位的Ubuntu虛擬機，並按照我所遵循的指南的建議，爲Hadoop和Kafka創建了單獨的用戶。使用控制檯消費者在卡夫卡消費生產的輸入，並且HDFS似乎正在運行。現在我想使用Flume將輸入傳送到HDFS。我使用下面的配置文件： tier1.sources = source1 tier1.