2014-09-13 46 views
0

我試圖從數據庫中索引一些數據。數據庫表中的每個頁面都有一些鏈接的文檔。Solr - 無法使用tika嵌套實體解析文件

我注意到索引一般可以工作,但是來自Tika的字段'text'完全被忽略並且根本沒有獲取,在日誌中沒有任何合理的例外。

我的數據congig:http://pastebin.com/XdwenPTE,我的架構:http://pastebin.com/zXEuFTHE,我Solr的配置:http://pastebin.com/qLiuT0tq

你可以看看我的CONFIGS,並告訴我,如果我中省略什麼?當我對索引數據進行查詢時,甚至沒有字段「文本」 - 爲什麼?

[編輯] 我改變傳遞給提卡到文件路徑:

url="${page_resource_list.FILE_PATH}" 

但還是文件內容根本沒有被編入索引。有任何想法嗎?我有一些例外情況,說沒有找到文件(這很好,因爲有些文件丟失),但對現有文件的任何問題都沒有例外。而蒂卡沒有索引任何東西。

它似乎與此處所述的相同問題:Solr's TikaEntityProcessor not working - 但是這真的不是固定的嗎?

回答

0

FILE_PATH的實體引用是${page_resource_list.FILE_PATH}而不是${page_content.FILE_PATH}(它只將CONTENT定義爲列)。

您還有一個LogTransformer,它可以在編制索引時爲您提供關於字段實際內容的更好調試信息,從而爲您提供幫助。

+0

我更新了我的問題 – user1209216 2014-09-15 06:16:58

+0

這是我的錯。來自dabase的文件路徑是錯誤的。不過,我也有多值域的其他問題,但我會爲它創建另一個問題。 – user1209216 2014-09-15 09:11:25