假設我有以下數據的純文本文件:如何將一組文本作爲一個整體映射到節點?
DataSetOne <br />
content <br />
content <br />
content <br />
DataSetTwo <br />
content <br />
content <br />
content <br />
content <br />
...等等...
我想的就是什麼:在計算每個數據集有多少內容。例如,結果應該是
<DataSetOne, 3>, <DataSetTwo, 4>
我是Hadoop的一個beginer,我不知道是否有對數據塊映射作爲一個整體到節點的方式。例如,將所有DataSetOne設置爲節點1,將所有DataSetTwo設置爲節點2.
有沒有人可以給我一個想法如何存檔?