2017-02-08 45 views

回答

2

底層Elasticsearch使用Apache Tika庫,它可以處理來自不同文件類型的所有文本提取,而Tika中的PDF解析器使用PDFBox Java庫專門從pdf格式中提取文本。所以,在這個開放源代碼庫完成一些魔術之後,提取的文本被索引爲普通的Elasticsearch文檔。

相關問題