我正在嘗試使用Solr和Tika搜索文本文檔。一切工作正常的.docx,.pptx,.csv,.xlsx,..但是當涉及到.pdf文件,它返回空的內容。我無法弄清楚問題所在!使用Solr索引阿拉伯語PDF文件
0
A
回答
0
如果使用post.jar索引文件使用-Dauto
例子:
java -Dauto -Dc=collection_name -jar post.jar pdf_file.pdf
使用-Dauto我們可以索引蒂卡支持所有文檔格式。 即TXT,DOC,DOCX,PDF,XML,HTML等
這些阿拉伯過濾器類添加到字段定義
<fieldType name="text_general_arabic" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="arabic_stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="arabic_stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
</analyzer>
</fieldType>
0
它正確解析PDF的很困難,因爲PDF中還可以包含文本或圖像。我們創建了一個工具來輕鬆搜索任何文件的內容。 根據我們的經驗:
- 解析PDF文件使用PDFBOX第一
- 如果第1步歸零 - >做的OCR
過程的完整描述,您可以在我們的博客https://blog.ambar.cloud/ingest-attachment-plugin-for-elasticsearch-should-you-use-it/
找到希望它有幫助。
P.s.我們的集成解決方案https://github.com/RD17/ambar
相關問題
- 1. Solr阿拉伯語搜索
- 2. Solr的阿拉伯語
- 3. 阿拉伯語文本文件搜索和索引
- 4. 使用pdfbox創建阿拉伯語文本pdf文件
- 5. Solr的索引和搜索阿拉伯文內容
- 6. Jackrabbit Text阿拉伯語搜索PDF文件
- 7. PDF格式使用阿拉伯文語言的組件庫
- 8. 使用wkhtmltopdf製作阿拉伯文PDF
- 9. 使用Solr的3.6.1,阿拉伯語單詞不存儲和索引
- 10. SOLR雪球搬運工阿拉伯語
- 11. 用阿拉伯語
- 12. 全文搜索不匹配阿拉伯語Kaaf字母阿拉伯語模式
- 13. zend中的阿拉伯語pdf
- 14. 阿拉伯語文本框
- 15. Tokenize阿拉伯語文本文件java
- 16. 導出爲Excel,PDF,CSV文件不支持阿拉伯語言
- 17. Apache Solr - 索引PDF文件
- 18. Android.Speech.TextToSpeech阿拉伯語語言
- 19. php mysql阿拉伯語搜索
- 20. 文本到阿拉伯語的語音
- 21. 如何使用FPDF在pdf中編寫阿拉伯語? (php)
- 22. 在MySQL中使用阿拉伯語
- 23. 使用Javascript檢測阿拉伯語?
- 24. 使用UTF8編碼阿拉伯語$ lang
- 25. 打印阿拉伯語或使用Python
- 26. 在ReportLab中使用阿拉伯語(RTL)
- 27. 實現使用阿拉伯語語義網絡搜索引擎WORDNET
- 28. 用阿拉伯語保存文件名使用傳統的asp
- 29. 如何在Android PDF文檔中支持阿拉伯語?
- 30. MonoTouch.Dialog:阿拉伯語元素
您是如何編制索引的? – vinod
我在solrconfig文件中使用了ExtractRequestHandler,然後使用curl命令來索引PDF文件。它獲取所有正確的元數據,但內容如下:attr_filecontent「:[」\ n \ n \ n \ n「] – LHAD