我在嘗試使用MoreLikeThis Solr的功能來查找基於其他文檔的類似文檔,但我不太瞭解這些功能的一些功能是如何工作的。Solr中的術語向量
正如它說的here,MoreLikeThis組件效果最好,當存儲termVectors
時。我的困惑來了。
在Solr的schema.xml文件的字段(假設該字段包含電影評論文本)上啓用標誌termVectors
就足夠了嗎?插入它後,Solr會計算給定字段的termVectors,然後在隨後調用MoreLikeThis處理函數時存儲它,然後使用calculcated termVectors?
我居然沒有一個模式呢,況且我有一個索引集文件。我的Solr核心現在是空白的,我剛剛開始。所以,如果我理解的很好 - Solr會在編制索引時爲每個文檔自動構建術語向量,對吧? – wookie
事實上,在模式中配置它之後,Solr會在建立索引時謹慎並構建數據結構。 MLT將自動使用這些結構(在內部,MLT代碼對索引文件進行檢查,並且如果它發現它正在評估的字段的矢量術語,它將自動使用它們) –
很好,這是一個好消息。實際上我還有一個問題,因爲我看到你對這個主題有很好的理解。 在執行MLT時,我希望它只考慮索引文檔的有限子集,例如:我有一個150 000文檔的索引,模式由id,title,content和publicationDate組成。 現在,我想對任意輸入文檔執行MLT查詢,但是我希望查詢僅在02-01-2014和02-04-2014之間考慮使用publicationDate的文檔。 似乎'mlt.qf'是它的解決方案,對嗎? – wookie