0
在hadoop流媒體中,「-D stream.map.output.field.separator =。」和「-D stream.num.map.output.key.fields = 4」用於指定關鍵字段和值領域。 但在我的問題,根本沒有分隔符,記錄如下: AAA__BBBBBB CCC__DDDDDD 我想指定1到3個字符作爲鍵和最後的值,我該怎麼辦? 此外,哪裏會出現次要問題(二次排序),如何指定它們?如何在hadoop streaming中指定key和value的長度?
你是什麼意思的二級鍵? Hadoop將首先按鍵排序,然後按值排序。如果你正確設置你的鍵/值對,那麼所有的排序應該正確。 – carpenter