mapper

    1熱度

    2回答

    我有一種情況,在一個機器和默認複製因子文件謊言的整個塊是1 在這種情況下,如果我在我的羣集中啓動的Hadoop,我覺得我所有的映射任務將只運行因爲塊只存在於該機器上。這樣對嗎?本地映射器任務執行是一個約束還是一個優先級? 如果是,是否可以通過將映射器任務也複製到其本地磁盤的方式在其他機器上運行來進行配置。 第二個問題是,即使映射任務只在一臺機器上運行,它是正確的,減速將在所有其他計算機通過複製映射

    2熱度

    2回答

    如果是,HDFS如何將輸入文件分割成N行以供每個映射器讀取? 我相信這是不可能的! 當拆分器需要偏移量或字節拆分時,可以在不處理整個輸入文件的情況下拆分。 但是,當'\ n'或換行字符的數量很重要時,在拆分之前需要處理總輸入文件(以計算換行字符)。

    0熱度

    1回答

    我有一個程序,迭代mapper和reducer連續的n次。但是,對於每次迭代,每個鍵 - 值對的映射器都會計算出一個取決於n的值。 from mrjob.job import mrjob class MRWord(mrjob): def mapper_init_def(self): self.count = {} def mapper_count(sel

    5熱度

    1回答

    當我在閱讀關於延遲公平調度in this slide時,我對Hadoop中的術語「作業調度」和「任務調度」有些困惑。 請糾正我,如果我在下面的假設是錯誤的: 默認調度,調度能力和公平調度在作業級別是唯一有效的多個作業時,由用戶預定。如果系統中只有單一工作,他們不起任何作用。這些調度算法形成「作業調度」的基礎 每個作業可以有多個映射和減少任務,它們是如何分配給每臺機器的?如何安排一項工作的任務?什麼

    0熱度

    1回答

    我需要相關地圖降低chaining.i有一張地圖,減少這樣的 MAP-> reduce->地圖 我想減速機的輸出鏈幫助在最後的映射器中使用 例如,在我的reducer中,我正在獲取僱員的最高工資,並且此值應該用於下一個映射器,並找到具有該最高工資值的記錄。我的最後一個映射器應該得到reducer的輸出和文件的內容?有可能嗎?如果可以的話問題是什麼?有什麼更好的解決方案?

    1熱度

    1回答

    我完全陌生於totalorderpartitioner的概念,我已經應用了這個概念,但是我沒有成功地生成全局排序。 這是我的輸入記錄 676576 7489768576 689576857867857 685768578678578675 765897685789675879679587 1 5 6 7 8 9 0 2 3 5 6 9 這是我的映射 public

    0熱度

    1回答

    我需要合併來自多個表的信息。 在使用實體的情況下,我應該爲它們創建所有可能的字段作爲屬性+ setters/getters。 但在保存對象 - 我應該拆分/取消設置不在主表中的所有屬性。 可能有更多的「真實」的方式來處理它,而無需使用原則等

    0熱度

    1回答

    在我們正在開發的應用程序中,我們有服務,映射器和實體。我們沒有使用ORM。在應用程序中,我們有Group,GroupMember & Member實體。 GroupMember實體具有groupId,memberId & memberAccess屬性。 memberAccess字段告訴我們Group內的Member的訪問級別。現在我們需要取 全部Groups成員有特定的訪問級別。 (通過提供mem

    5熱度

    1回答

    我不得不MapReduce和hadoop.I知道一個簡單的迭代的MapReduce程序,知道一個映射器,減速機,洗牌是什麼.. 兩個相關概念的懷疑,但仍希望瞭解以下問題 1 )什麼時候迭代映射減少完成? 2)我知道身份映射器/減速器給出輸入相同的輸入。 但是我們什麼時候使用身份映射器/縮減器?

    0熱度

    1回答

    我運行一個Hadoop程序,並具有以下爲我輸入文件,input.txt中: 1 2 mapper.py: import sys for line in sys.stdin: print line, print "Test" reducer.py: import sys for line in sys.stdin: print line, 當我運行它沒有Had