-1
如何使用java解析二進制文件中的內容並從中提取文本。我需要這個能夠使用lucene索引二進制文件的內容。我目前支持的文件類型有pdf,html,word,excel,ppt,html。需要使用java從任何二進制文件中提取文本
如何使用java解析二進制文件中的內容並從中提取文本。我需要這個能夠使用lucene索引二進制文件的內容。我目前支持的文件類型有pdf,html,word,excel,ppt,html。需要使用java從任何二進制文件中提取文本
你可以嘗試Apache Tika:
阿帕奇提卡™工具包檢測和超過一千不同的文件類型(如PPT,XLS和PDF)提取元數據和文本。所有這些文件類型都可以通過單個界面進行分析,這使得Tika對於搜索引擎索引,內容分析,翻譯等等非常有用。