mapper

    4熱度

    1回答

    我正在排除如何多次對數據進行排序而無需每次都返回映射器。 我還想設置:1映射 - >減速器1 --->機2 --->減速3 我想使減速機1輸出(鍵,數據),然後把它直行減速機2 ...這可能嗎? 我從故障排除中瞭解到,您可以鏈接作業,但是這需要每個步驟的映射器? 每當我嘗試在沒有映射器的情況下運行時,它以錯誤結束。如果我可以根據需要從減速器1輸出它,似乎每個步驟的運行映射器都會浪費時間/資源。 想

    2熱度

    2回答

    我聽說我們可以使用多個映射器在Hadoop中並行讀取一個bzip2文件的不同部分,以提高性能。但搜索後我找不到相關樣本。感謝任何人都可以將我指向相關的代碼片段。謝謝。 順便說一句:是gzip具有相同的功能(多個mapper並行處理一個gzip文件的不同部分)。

    0熱度

    1回答

    我想在代碼中更好地實現OOP和依賴注入,並遇到以下問題。 我到僱主和公司參與(與相應型號,映射器和數據庫表)的客戶提供服務: class Service { protected $clientId; protected $client; protected $employerId; protected $employer; protected $

    2熱度

    3回答

    我開始一個使用couchbase(一個以json格式存儲對象的noSQL數據庫)和php一起使用的新項目。 問題是,如果我可以將json映射到我自己的php類(反之亦然),那麼使用它們將非常容易。 你知道任何圖書館嗎?

    1熱度

    3回答

    每次Kmeans迭代後,Hadoop是否會將輸出集羣存儲到HDFS中,並在下一次迭代中將它們提取到內存中? 映射器將觀察結果放入特定的簇中。我的意思是每個節點都必須知道所有的數據,並且hadoop只分配計算而不是數據,這樣每個節點都會給出某個節點的觀察集,對不對? 謝謝

    3熱度

    1回答

    在我的一個MapReduce任務中,我將BytesWritable重寫爲KeyBytesWritable,並將ByteWritable重寫爲ValueBytesWritable。然後我使用SequenceFileOutputFormat輸出結果。 我的問題是當我開始下一個MapReduce任務時,我想使用這個SequenceFile作爲輸入文件。那麼我怎樣才能設置工作類,以及Mapper類如何識別

    2熱度

    1回答

    我有這種情況。 JobA和JobB。是否有機會使用JobA reduce階段提供的數據啓動JobB映射階段,但仍然有效? 謝謝!

    1熱度

    1回答

    現在我有一個BaseObject對數據庫執行ORM。我依靠私有$ data和magic setter和getter來創建對象作爲私有對象成員(動態地)。在子類中,如果我想更改行爲來設置單個對象成員,則必須覆蓋父設置器並查找關鍵字。我的問題是,如果有更好的方法來做到這一點,我可以只覆蓋單個對象的成員通過__setter寧願去 基本對象映射它映射到數據庫和動態創建一堆私人則params的 class

    5熱度

    1回答

    剛完成一個大的Appengine mapreduce任務,我的許多碎片都卡在終點線上。這裏的設置: filenames = yield mapreduce_pipeline.MapperPipeline( 'example mapper name', 'main.MyMapper', input_reader_spec='mapreduce.input_re

    0熱度

    1回答

    hadoop的新手 - 我試圖讀取我的HDFS文件中的塊,例如 - 一次100行,然後在映射器中使用apache OLSMultipleLinearRegression運行數據迴歸。 我使用這裏顯示多行來讀取這些代碼:http://bigdatacircus.com/2012/08/01/wordcount-with-custom-record-reader-of-textinputformat/