如何在pdf和doc文件上運行Hadoop wordcount程序? 當我嘗試在pdf文件上運行它時,輸出會顯示奇怪的字符。如何在pdf和doc文件上運行Hadoop wordcount程序?
2
A
回答
2
您提到的文件格式是二進制文件,不適合作爲字數的輸入,而無需將其預處理爲純文本。您將首先必須使用其他工具/庫將它們轉換爲純文本格式。
有可能有一些免費的命令行工具,可以幫助你做到這一點。
+0
聲明,二進制文件格式不適合作爲輸入,你需要轉換爲純文本是完全錯誤的,最高效的Hadoop程序使用二進制輸入,因爲它避免瞭解析輸入的需要,從而提高了效率。 – 2013-03-09 20:18:35
2
Hadoop並不侷限於處理明文文件,當然你也可以處理二進制文件,例如SequenceFile
s是Hadoop中最常見的二進制格式,但是如果你想要一個自定義的二進制格式,你也可以通過實施您自己的InputFormat
和RecordReader
。
我會建議看this great article on processing .doc files in Hadoop,而這一次on processing .docx and .pdf files,這應該符合您的需求。
相關問題
- 1. 在hadoop中運行不帶reducer的WordCount
- 2. 的PDF和DOC文件上傳問題
- 3. 如何運行Hadoop程序?
- 4. Hadoop WordCount示例 - 在Hadoop(Eclipse)上運行選項不提示選擇Hadoop服務器在窗口上運行
- 5. WORDCOUNT程序是停留在Hadoop的2.3.0
- 6. 無法運行hadoop wordcount示例?
- 7. 運行的Hadoop wordcount的例子
- 8. 如何在hadoop 0.23.0上運行和編譯java程序MR2
- 9. PDF,DOC,XLS文件上傳
- 10. 運行Hadoop wordcount示例時未找到Job Token文件示例
- 11. 在hadoop上運行字數
- 12. 如何使用BlobStore上傳DOC和PDF文件的類型
- 13. 在Hadoop上運行java程序
- 14. Hadoop> WordCount按值排序
- 15. 如何共享.pdf,.doc文件到我的應用程序
- 16. 如何獲得hadoop WordCount應用程序中所有令牌字的文件名?
- 17. 編譯Hadoop wordcount教程 - hadoop 2.6.3
- 18. Hadoop WordCount輸出
- 19. Hadoop Mapreduce wordcount
- 20. Cassandra WordCount Hadoop
- 21. HADOOP wordcount program
- 22. Wordcount示例hadoop
- 23. hadoop 2.2.0 wordcount prg無法從遠程運行
- 24. golang:在Windows上運行pdf文件的默認應用程序
- 25. 我們如何在Hadoop上運行CUDA C程序?
- 26. 如何將.doc文件轉換爲.pdf文件在android
- 27. 如何在Amazon EMR中運行WordCount?
- 28. 如何在OS X上運行Hadoop?
- 29. 上運行Hadoop的字數程序
- 30. wordcount程序中的NoClassDefFoundError
這篇文章可能會幫助你進一步得到:http://stackoverflow.com/a/9298965 – 2013-03-09 09:03:11