-1
我有許多文本格式(word和pdf)的項目報告。這些文件包含我想要提取的數據;如引用,關鍵字,提及的名字.......如何使用上下文表作爲模式將文本文件保存爲配置單元
我想用Apache spark處理這些文件並將結果保存到配置單元, 使用dataframe的強大功能(使用上下文表格作爲模式)那可能嗎?
願您與我分享有關如何處理這些文件的任何想法?
我有許多文本格式(word和pdf)的項目報告。這些文件包含我想要提取的數據;如引用,關鍵字,提及的名字.......如何使用上下文表作爲模式將文本文件保存爲配置單元
我想用Apache spark處理這些文件並將結果保存到配置單元, 使用dataframe的強大功能(使用上下文表格作爲模式)那可能嗎?
願您與我分享有關如何處理這些文件的任何想法?
你能否澄清一下你的意思是「作爲模式的上下文表」? –
文件的字幕(如簡介,摘要,參考書目......) –