我正在開發一個應用程序以在電子開始網站上搜索產品。我們將大約5,000,000種產品放入Solr索引中,包括所有常規字段:標題,說明等。而多字搜索短語可以很好地工作(例如「夏季涼鞋」或「高爾夫襯衫」)。單詞搜索不太好。Solr中的單詞搜索不準確
例如,當我搜索「吉他」時,Solr會返回一串提到吉他的產品。不管怎樣,不管怎樣,吉他音樂CD在指導如何彈吉他和吉他形鑰匙鏈方面的排名都高於實際的吉他。第一個實際的吉他出現在第120位左右。 從用戶的角度來看,我在想,如果我輸入「gutar」,我正在尋找真正的吉他。如果我需要關於如何彈吉他的指導,我會搜索「吉他演奏指南」,它的方式完美。
同樣的問題,如果你搜索「鞋」。它帶回了一堆音樂CD。顯然有很多這樣的標題或描述都有單詞鞋。
我發現的一個觀察結果是,搜索結果中的這些「不相關的」產品的標題和描述都非常短。我猜想這裏提出了每個單詞的重要性。如果你有一個音樂CD「法國鞋」的標題,並沒有太多其他的經過,索爾被欺騙。那麼我是否有辦法將更高級別的文檔分配給文本較長的文檔?我將不得不使用字段長度的概念來確定它是否是Solr中的一個簡單調整。
其他建議?