背後的理論是什麼，Elasticsearch索引非結構化數據如pdf文件？

我已閱讀關於從elasticsearchdocumentation全文搜索，但不能理解它用於索引PDF文件的算法。背後的理論是什麼，Elasticsearch索引非結構化數據如pdf文件？

2017-02-08 Ashley

你的問題到底是什麼？你想知道如何彈性存儲和搜索PDF？ – hkulekci

@hkulekci是彈性搜索使用的算法。 – Ashley

底層Elasticsearch使用Apache Tika庫，它可以處理來自不同文件類型的所有文本提取，而Tika中的PDF解析器使用PDFBox Java庫專門從pdf格式中提取文本。所以，在這個開放源代碼庫完成一些魔術之後，提取的文本被索引爲普通的Elasticsearch文檔。

2017-02-09 07:37:23 Mysterion

回答