2013-10-18 63 views

回答

3

好吧,如果你的問題是天氣或者Solr的或Lucene的可解析XML並考慮到它的XML結構(使這些標籤的體內文本標籤和文本之間的差異)指數那麼答案是否定的,他們不能。

你需要做的,如果你想使用其中任何一個什麼,就是要創建自己的XML解析器,從XML文件中提取所需的數據和索引它的Lucene Solr的或文件。一旦你這樣做了,文件就可以在你宣佈的字段上搜索到。

我建議使用Solr的。它採用比直接的Lucene實現更多的資源(更多的RAM,雖然這一切都是Solr的參數配置),但更容易開發對抗相比,Lucene的。

+1

剛一說明:[提卡(http://tika.apache.org/0.7/formats.html#XML_and_derived_formats)通常推薦的典型文件格式分析器與獲取數據到Lucene的效果很好。 – femtoRgon

+0

感謝您的回答。這不會爲我工作。我想我以後不會顯示上下文。如果每個單詞都成爲一個字段,我不會再有短語,段落,textes。 – user2598997