我正在設計一個包含每個文檔排名標籤的Lucene搜索索引。Solr/Lucene:爲單個標籤評分
實施例:
Document 1
tag: java , rank 1.2
tag: learning, rank 2.1
tag: bugs, rank 1.2
tag: architecture: rank 0.3
的標籤來自一個自動分類算法,該算法也將一個得分指定。
如何設計索引,以便查詢搜索標籤組合並返回最相關的結果?例如,搜索java +學習
我最初爲每個標記創建了一個FIELD,並使用排名來提升每個文檔的字段。在性能方面這是一個很好的方法嗎?如果我有10,000個可能的標籤會怎麼樣?在Lucene中有10,000個FIELDS是個好主意嗎?
Field tag = new Field(
FIELD_TAG+tag.getId(),
"y",
Field.Store.NO,
Field.Index.NOT_ANALYZED);
tag.setBoost(tag.getRank());
luceneDoc.add(tag);
如果我將所有標籤添加到相同的字段,我該如何考慮排名?