2013-03-08 53 views

回答

2

您提到的文件格式是二進制文件,不適合作爲字數的輸入,而無需將其預處理爲純文本。您將首先必須使用其他工具/庫將它們轉換爲純文本格式。

有可能有一些免費的命令行工具,可以幫助你做到這一點。

+0

聲明,二進制文件格式不適合作爲輸入,你需要轉換爲純文本是完全錯誤的,最高效的Hadoop程序使用二進制輸入,因爲它避免瞭解析輸入的需要,從而提高了效率。 – 2013-03-09 20:18:35