2016-01-23 37 views

回答

0

執行此操作: 修改您引用的博文中的代碼,將PDF文字寫入HDFS文件或事件純文本文件。該帖子引用作者的其他帖子https://amalgjose.wordpress.com/2014/04/13/simple-pdf-to-text-conversion/

然後,一旦你有了PDF到文本的轉換,你就可以讀取來自Spark的HDFS輸入。

轉到http://spark.apache.org/examples.html並尋找字數統計的例子。在Scala,Python,Java中有例子。這些示例甚至展示瞭如何指定HDFS位置,但也可以使用本地文件系統。

祝你好運