2017-07-26 17 views
-1

我有許多文本格式(word和pdf)的項目報告。這些文件包含我想要提取的數據;如引用,關鍵字,提及的名字.......如何使用上下文表作爲模式將文本文件保存爲配置單元

我想用Apache spark處理這些文件並將結果保存到配置單元, 使用dataframe的強大功能(使用上下文表格作爲模式)那可能嗎?

願您與我分享有關如何處理這些文件的任何想法?

+0

你能否澄清一下你的意思是「作爲模式的上下文表」? –

+0

文件的字幕(如簡介,摘要,參考書目......) –

回答

0

據我所知,您需要使用Tika來解析文件,並按here所述手動創建自定義模式。

讓我知道這是否有幫助。乾杯。

相關問題