0
我已閱讀關於從elasticsearch
documentation全文搜索,但不能理解它用於索引PDF文件的算法。背後的理論是什麼,Elasticsearch索引非結構化數據如pdf文件?
我已閱讀關於從elasticsearch
documentation全文搜索,但不能理解它用於索引PDF文件的算法。背後的理論是什麼,Elasticsearch索引非結構化數據如pdf文件?
底層Elasticsearch使用Apache Tika庫,它可以處理來自不同文件類型的所有文本提取,而Tika中的PDF解析器使用PDFBox Java庫專門從pdf格式中提取文本。所以,在這個開放源代碼庫完成一些魔術之後,提取的文本被索引爲普通的Elasticsearch文檔。
你的問題到底是什麼?你想知道如何彈性存儲和搜索PDF? – hkulekci
@hkulekci是彈性搜索使用的算法。 – Ashley