2016-04-29 84 views
0

我正在建立一個使用Elasticsearch作爲索引器和Nutch作爲抓取工具的小型垂直搜索引擎。我正在使用HTML標題字段爲使用edge n gram策略的ES構建搜索建議,認爲標題字段應該很好,因爲它應該包含頁面主題內容的相關術語,並且它會使索引在搜索方面更小建議,他們是單個單詞或短語。然而,到目前爲止,在測試中,它並不像想象中那樣工作......只是沒有那麼多建議出現。Elasticsearch更多搜索推薦

目前我只使用約10個網站進行測試,但最終將達到約500個左右。我在想,由於數據集很小(10個站點,只有HTML標題欄),可能沒有足夠的術語或短語可以提出好的建議,至少短語建議無論如何。

在標題字段中使用edge n gram策略抓取更多站點以創建更多建議(術語和短語)還是應該使用內容字段(顯然比標題字段大得多)是明智的。

我試圖對此進行微調以獲得更多的搜索建議,尤其是短語建議,同時注意索引大小 - 這樣性能不會受到影響。有任何想法嗎?

回答

0

現在人們可以說,建議比搜索結果本身更重要---這是有點無意義的,我知道。但用戶往往會預期,如果沒有建議,就沒有搜索結果。因此,請確保每個可搜索字段都適當地反映在您的建議中 - 特別是您的內容。和「優化後」!不要過早看你的表現。 500個網站聽起來不像你會得到很多文件索引無論如何。你使用什麼樣的硬件?

+0

開發,只是我的本地Ubuntu機器,但是當開發完成後,我打算使用aws。 – user3125823

+0

我同意你的看法,建議可能比結果更重要,至少在最初時。你說什麼是有道理的,最好先提出建議,以後再擔心表現 – user3125823