2015-10-23 81 views
0

我使用附件映射器安裝了彈性搜索,然後在同一臺機器上安裝了tesseract OCR,我的目標是能夠通過彈性搜索爲圖像編制索引。配置ElasticSearch附件映射器使用OCR插件

目前我能夠使用彈性分析和索引Microsoft Office文件,但在某些情況下彈性需要知道tesseract已安裝在機器上並將圖像傳遞給它以提取文本。

tesseract安裝是好的,因爲我可以將它作爲獨立使用,任何幫助它使用彈性?

+1

這很難理解你的問題。你的設置/背景,期望的行爲和問題都會混淆在一個很難理解的段落中。你可以嘗試更清楚地解釋嗎? – kdbanman

+0

我剛剛做了,希望現在更清楚。 – user3133414

回答

0

tesseract已在Apache Tika中啓用。因此,您可以使用Elasticsearch Ingest Attachment plugin在Tika中使用主動OCR爲您的圖像編制索引。

我只設法使用位於類路徑012xx的附加屬性文件在Tika中啓用OCR。配置是語言和正方體的位置:

language=deu+eng 
tesseractPath=D:\programs\Tesseract-OCR 

因此,基本上,所有你需要做的是創建存放屬性文件並添加到您的類路徑的目錄結構。

希望這會有幫助

Konrad。