我想閱讀hdfs中的pdf文件並做字數統計。我知道how to do this in Map Reduce。 我需要在Apache Spark中做同樣的事情。你的幫助將不勝感激。Apache Spark字數在PDF文件上
-3
A
回答
0
執行此操作: 修改您引用的博文中的代碼,將PDF文字寫入HDFS文件或事件純文本文件。該帖子引用作者的其他帖子https://amalgjose.wordpress.com/2014/04/13/simple-pdf-to-text-conversion/
然後,一旦你有了PDF到文本的轉換,你就可以讀取來自Spark的HDFS輸入。
轉到http://spark.apache.org/examples.html並尋找字數統計的例子。在Scala,Python,Java中有例子。這些示例甚至展示瞭如何指定HDFS位置,但也可以使用本地文件系統。
祝你好運
0
SparkContext有一個名爲hadoopFile的方法。您需要重寫FileInputFormat,與how to read image using spark相同。 並且還閱讀Pdf Input Format implementation for Hadoop Mapreduce
相關問題
- 1. apache spark文本文件到字符串
- 2. Apache Spark SQL上下文dropDuplicates
- 3. 使用Apache Spark/Spark SQL加入文件
- 4. 在Heroku上部署Apache Spark
- 5. 在Linux上安裝Apache Spark
- 6. Apache Spark:掛在廣播上
- 7. Apache Spark vs Apache Spark 2
- 8. Apache Solr - 索引PDF文件
- 9. Apache Spark從ArrayList中添加數字
- 10. spark-highcharts導出到文件(PNG或pdf)
- 11. Spark上的Apache Tika 1.11 NoClassDeftFoundError
- 12. Bluemix Apache Spark服務 - Scala - 讀取文件
- 13. 處理日誌文件:Apache Storm或Spark
- 14. 從HDFS使用文件到Apache Spark中
- 15. 從Apache Spark讀取文件textFileStream
- 16. apache spark DataFrame操作閱讀json文件
- 17. apache spark Streaming textFileStream - 讀取gzip文件
- 18. Apache Spark:JAR文件未提供spark-submit
- 19. Apache Spark從文件夾流(不是HDFS)
- 20. Apache Spark與Apache Storm
- 21. Apache Spark vs Apache Ignite
- 22. 在Windows 7上安裝Apache Spark 64位
- 23. 無法在DCOS上安裝Apache Spark
- 24. 在ubuntu上安裝Apache spark for pyspark
- 25. Apache Spark無法在Windows上運行
- 26. 如何在Windows上配置Apache Spark?
- 27. 在windows 7上安裝Apache Spark 32位
- 28. 在Amazon EC2上使用HDFS和Apache Spark
- 29. Apache Spark在YARN上運行spark-shell錯誤
- 30. Apache Spark reduceByKey總計小數
歡迎來到SO。不鼓勵鏈接的答案。你能否在你的答案中包含你的鏈接的基本部分。 – Wtower