我有一個相當大的文本文件,我想將其轉換爲SequenceFile。不幸的是,該文件由Python代碼組成,邏輯行通過幾條物理線路運行。例如,
print「Blah Blah \
... blah blah」
每條邏輯行都以NEWLINE結尾。有人可以澄清我怎麼可能在Map-Reduce中生成Key,Value對,其中每個Value都是整個邏輯行?Hadoop自定義拆分TextFile
2
A
回答
1
您應該在TextInputFormat上創建自己的變體。在那裏你創建一個新的RecordReader,它跳過行,直到它看到一條邏輯行的開始。
0
預處理輸入文件以刪除換行符。創建SequenceFile的目標是什麼?
4
我沒有找到前面提到的問題,但是你只需通過一個簡單的mapreduce作業遍歷你的代碼並將它們保存到一個StringBuilder中。如果要從新記錄開始,請將StringBuilder刷新到上下文。訣竅是將您的映射器類中的StringBuilder設置爲字段而不是局部變量。
那就是: Processing paraphragraphs in text files as single records with Hadoop
相關問題
- 1. Hadoop的自定義分區
- 2. 自定義拆分容器
- 3. Hadoop中的自定義分區程序
- 4. 快速自定義字符串拆分
- 5. hadoop減少拆分大小
- 6. Hadoop輸入拆分轉儲
- 7. 實現輸入拆分(HADOOP)
- 8. Hadoop SequenceFile vs可拆分LZO
- 9. Hadoop不可拆分TextInputFormat
- 10. 在Hadoop中自定義InputFormat
- 11. Hadoop自定義可寫
- 12. 來自TextFile的DataTable?
- 13. 使用自定義拆分方法的駱駝分割器
- 14. Hadoop文件拆分:CompositeInputFormat:內部加入
- 15. Hadoop如何執行輸入拆分?
- 16. hadoop命令在HDFS上拆分文件
- 17. 拆分輸入到子豬(Hadoop的)
- 18. Hadoop在節點上自定義輸入分佈
- 19. Hadoop分區程序中的自定義計數器
- 20. Mapreduce Hadoop中的NullWritable鍵類型的自定義分區
- 21. 如何在Hadoop中爲FairScheduler使用自定義池分配?
- 22. 在Hadoop中編寫自定義分區程序的語法
- 23. Hadoop Oozie MapReduce動作自定義分區程序
- 24. 在Hadoop中實現自定義Writable?
- 25. 自定義二進制輸入 - Hadoop
- 26. 如何設置自定義hadoop job_id?
- 27. Hadoop自定義輸出RecordWriter錯誤
- 28. textfile分隔java nosuchelement異常
- 29. 自定義ListView的適配器創建拆分按鈕
- 30. PHP:將數組拆分爲基於自定義函數的塊?
這比我目前沒有更優雅。我構建了一個本地迭代,它給了我一條邏輯線,並使用RecordReader將整個文檔作爲ByteWritable進行傳輸。謝謝你的提示! – dvk 2011-06-17 04:51:29