我正在建立一個使用Elasticsearch作爲索引器和Nutch作爲抓取工具的小型垂直搜索引擎。我正在使用HTML
標題字段爲使用edge n gram
策略的ES構建搜索建議,認爲標題字段應該很好,因爲它應該包含頁面主題內容的相關術語,並且它會使索引在搜索方面更小建議,他們是單個單詞或短語。然而,到目前爲止,在測試中,它並不像想象中那樣工作......只是沒有那麼多建議出現。Elasticsearch更多搜索推薦
目前我只使用約10個網站進行測試,但最終將達到約500個左右。我在想,由於數據集很小(10個站點,只有HTML
標題欄),可能沒有足夠的術語或短語可以提出好的建議,至少短語建議無論如何。
在標題字段中使用edge n gram
策略抓取更多站點以創建更多建議(術語和短語)還是應該使用內容字段(顯然比標題字段大得多)是明智的。
我試圖對此進行微調以獲得更多的搜索建議,尤其是短語建議,同時注意索引大小 - 這樣性能不會受到影響。有任何想法嗎?
開發,只是我的本地Ubuntu機器,但是當開發完成後,我打算使用aws。 – user3125823
我同意你的看法,建議可能比結果更重要,至少在最初時。你說什麼是有道理的,最好先提出建議,以後再擔心表現 – user3125823