hdfs

    0熱度

    1回答

    我想將文件從ftp服務器傳輸到hdfs。這個方法我試過:FTP TO HDFS,演示代碼如下: Configuration conf = new Configuration(); FTPFileSystem ftpfs = new FTPFileSystem(); ftpfs.setConf(conf); ftpfs.initialize(new URI(ftpCon

    0熱度

    1回答

    我正在學習hadoop,在學習時會混淆兩個名詞空間,其次是元數據。 我至今對元數據的研究是元數據是namenode服務器的一部分。它關於HDFS中所有文件的信息,複製因子,datanode的數據塊,文件權限等。這些元數據存儲在一個名爲fsimage的文件中。請糾正我是否有錯 二是命名空間,關於命名空間是我唯一知道的是它只是一個文件夾結構,甚至我不知道這一點。你們能與我分享這些條款嗎?我對Names

    0熱度

    1回答

    我想知道是否可以從hadoop中的一個機架獲得塊報告? 我知道我可以用下面的命令一整塊報告: hdfs fsck/-files -blocks -racks 然而,當你的集羣是大,需要花費大量的時間來運行該命令。我只想看到位於特定機架中的塊。有沒有辦法只從一個機架獲取報告? (即指定架而不是路徑) 在此先感謝

    1熱度

    2回答

    我試圖運行自定義Python腳本,該腳本導入AWS Glue上的外部純Python庫(psycopg2),但失敗。我檢查了CloudWatch日誌,發現失敗的原因是: Spark在HDFS中的幾個文件夾上的權限檢查失敗,其中一個包含我上傳到S3的外部python庫(s3:// path /到/ psycopg2),這需要-x權限: org.apache.hadoop.security.Access

    1熱度

    1回答

    是否需要將火花作業的輸出寫入hdfs並從那裏下載。或者可以直接寫入本地文件系統。

    0熱度

    1回答

    不確定用於以下數據的體系結構。 我在看下面的數據格式和容量:在查詢字符串持有信息 生API Apache日誌(每天約15G) JSON點擊和瀏覽的廣告 - 約每天3m條目。 這導致我尋找設置HDFS集羣並使用fluentd或flume加載apache日誌的選項。這一切看起來不錯,但我不明白的是何時或如何解析apache日誌以從查詢字符串和路徑中提取信息。例如:「/ home/category1 /

    0熱度

    1回答

    我最近安裝了Hadoop(Cloudera)。我遇到了一個錯誤,我在複製塊下(在Cloudera Manager中,它是安裝的GUI)。所以,當我運行 hdfs dfsadmin -report 我得到 Configured Capacity: 555730632704 (517.56 GB) Present Capacity: 524592504832 (488.56 GB) DFS R

    0熱度

    1回答

    我正在使用名爲Spyder的Python IDE中的Apache SPARK和Python(pyspark)。我試圖加載從HDFS像這樣的文件: hdfs_file = sc.textFile(hdfs_path) 我確保路徑是正確的,該文件存在,但是當我執行命令我得到一個錯誤行: Py4JJavaError: An error occurred while calling o24.parti

    2熱度

    1回答

    情況如何? 我有一萬個CSV文件(每個250kb - 270kb),我想用Spark(Pyspark精確地)處理。每個CSV文件都代表一個特定事件的過程數據。你可以說一個CSV文件代表一個對象。由於我想將數據存儲在HDFS上,所以我必須找到連接數據的方式(因爲在HDFS上存儲大量微小數據效率不高)。 一個CSV文件的片段(簡化)。 Time Module v1 v2 v3 v4 v5 v6

    0熱度

    1回答

    我正在嘗試設置從控制檯Kafka生產者到Hadoop文件系統(HDFS)的簡單數據管道。我正在開發一款64位的Ubuntu虛擬機,並按照我所遵循的指南的建議,爲Hadoop和Kafka創建了單獨的用戶。使用控制檯消費者在卡夫卡消費生產的輸入,並且HDFS似乎正在運行。 現在我想使用Flume將輸入傳送到HDFS。我使用下面的配置文件: tier1.sources = source1 tier1.