2015-10-23 17 views
1

的Hadoop - 權威指南說hadoop中的二進制類型是什麼?

如果你想登錄的二進制類型,純文本是不是一個合適的格式。

我的問題是1.爲什麼不? 2.什麼是二進制類型?

,並進一步:

Hadoop的SequenceFileclass符合該法案在這種情況下,二進制鍵值對提供 一個持久數據結構。要將其作爲 日誌文件格式使用,您應該選擇一個密鑰,例如由LongWritable表示的代表 的時間戳,並且該值是一個Writable,表示要記錄的數量爲 。

爲什麼無法使用文本文件並且需要序列文件?

回答

0

在同一頁上,有人引述:

對於某些應用程序,你需要一個專門的數據結構來保存數據。爲了做 基於MapReduce的處理,將每個二進制數據塊放到它自己的文件中並不是 規模,所以Hadoop爲這些情況開發了許多更高級別的容器。

例如,假設你正在Facebook上傳圖片,你必須刪除重複的圖片。您不能以文本格式存儲圖像。你可以做什麼:獲取圖像文件的MD5SUM,如果系統中已經存在MD5SUM,只需放棄重複圖像的插入。在你的文本文件中,你可以簡單地擁有「日期:」和「上傳的圖像數量」。圖像可以存儲在HDFS系統的外面,如CDN網絡或其他網絡服務器

相關問題