我一直在使用豬用我的卡珊德拉數據做各種分組的驚人的技藝,這將是幾乎不可能勢在必行寫的DataStax的裂縫控制。我正在使用DataStax整合Hadoop & Cassandra,我不得不說它非常令人印象深刻。給那些傢伙打帽子!豬和卡桑德拉和
我在那裏,我把這個系統將向您介紹一些測試一個非常小的沙箱簇(2節點)。我有了〜53M行(約350個字節EA)一CQL表,我注意到映射後需要很長的時間來磨通這些53M行。我開始在日誌周圍戳,並且我可以看到地圖反覆出現溢出(我從映射程序中看到了177次溢出),我認爲這是問題的一部分。
CassandraInputFormat和JobConfig的組合僅生成單個映射器,所以這個映射器具有讀取來自表中的行的100%。我把這種反並聯 :)
現在,也有在工作中有很多的齒輪在這張照片,其中包括:
- 2物理節點
- Hadoop的節點在「Analytics(分析) 「DC(默認配置),但實際在同一個機架中。
- 我可以用LOCAL_QUORUM 看到作業
任何人能指出我如何讓豬創造更多的輸入拆分的方向,所以我可以運行更多映射器?我有23個插槽;似乎只能一直使用一個可惜。
或者,我是不是完全瘋了,不明白的問題?我歡迎這兩種答案!
嗨!這裏是表格:
– hughj我試着(靜脈)重寫'cassandra.input.split.size'爲64k值以外的東西,但似乎沒有改變它。我甚至將它添加到mapred-site.xml,但它仍然沒有改變。我也試圖從豬腳本中覆蓋,但仍然沒有運氣。 – hughj
嗨,我也面臨同樣的問題,你是怎麼解決這個問題的? – sudheer