2017-09-15 52 views
0

那麼搜索文本,我期待到Solr的履行我的以下具體要求:Apache Solr實現 - 在文件

要求:

會有成千上萬的文件夾中的一個「X」的名字的XML結構化文件位於,現在我想搜索一個詞語(即「Hello World」),結果,我想獲得名稱爲「Hello World」的文件數量。

,所以我們可以實現使用Solr的,如果是,那麼任何人都可以給我一點指導來達到同樣的?

注: XML文件將是任何格式,即(https://i.stack.imgur.com/wNPTW.png

問題:是結構 「wNPTW.png」 定義適用於Solr的搜索文本?或者我們必須依賴Solr特定的文檔結構。即(https://i.stack.imgur.com/sqn5q.png

此外,性能是我的主要要求。

請建議我怎麼能在這向前邁進?如果有任何其他技術可用,那麼請提出我。

期待您的來信:)

回答

0

是的。

如果XML格式在所有文檔中差不多相同,則可以使用Data Import Handler來配置從節點到字段的映射(使用xpath)。您可以將幾乎任何XML字段映射到常見的Solr字段(如果XML文件沒有被很好地定義)。

另一種選擇是使用built-in support with Apache Tika to parse files and use that to extract data into a content field和搜索對抗。

如果您需要的文件更具體的處理,寫一個小索引,並在該層執行所需的轉型可能是未來最簡單的途徑。

+0

感謝MatsLindh您的輸入,這對我的作品。(Apache的提卡選項) – kbd