嗨同行SOLR開發人員,SOLR tika處理器不抓取我的PDF文件熟知
我有一些pdf文件,其中有一些電路圖。有些文字垂直寫在電路上。例如,有一個字「結連接器」標記在PDF,垂直地通過電路拉伸,其中當索引到SOLR變爲「Ĵ加利(C T)I O N c個O 4 N N個E(C T)öR」。
由於顯而易見的原因,搜索沒有發生在給定的關鍵字上。是否有可能更改底層處理器?
我試圖在獨立的java類中使用'itextpdf'將PDF轉換爲文本,'itextpdf'打印足夠的文本。當我使用'Apache Tika'閱讀相同的pdf文件時,我發現很多詞語都是用空格分開的,很明顯,與SOLR相似。
是否有可能開發和集成一個'itextpdf'實體處理器,例如?或任何其他自定義實體處理器?
我最糟糕的另一種方式是使用solrj並閱讀pdf並對其進行索引,但如前所述,由於環境和設計限制,這將成爲我最差的情況。
使用SOLR 5.3.1
我使用的是蒂卡處理器,現在,
<dataConfig>
<dataSource type="BinFileDataSource" />
<document>
<entity name="tika-test" processor="TikaEntityProcessor"
url="C:\Users\12345\Downloads\workspace\Playground\circuits.pdf" format="text">
<field column="Author" name="creator" meta="true"/>
<field column="title" name="producer" meta="true"/>
<field column="text" name="text"/>
</entity>
</document>
的方式SOLR索引文件是這樣的,
P奧爾嗖RC(E T)他英尺dえてRRE ntandW¯¯IRE樂SS d OOR大號玉珠C於TRO升轉向信號閃爍< 6 -5> DHEJ T-OV-R DJFÇombination中號ETER
所以你說iText比你當前使用的文本提取器做得更好。那麼問題是什麼?爲什麼不使用使用iText提取的文本?你不能將純文本提供給SOLR嗎? –
謝謝!用更少的細節編輯這個問題。我可以做更大的規模,我正在尋找一個定製的實體處理器,如果這甚至是可能的。 –
好的,問題有所改善(值得投票)。我不知道答案,但是如果你不能將PDF解析爲帶有iText的文本,並且將文本交給一個爲其編制索引的工具,那將會讓我感到驚訝。我對這個問題的答案也很感興趣。 –