我已經在elasticsearch索引中存儲了來自不同來源的RSS源的大量新聞文章。在我執行搜索查詢時,它會爲我返回一個查詢的很多類似的新聞文章,因爲同一個新聞主題被許多RSS源所覆蓋。什麼是使用elasticsearch做文檔聚類的便捷方式?
相反,我想這樣做是出一組文章中只返回一個新聞文章同一主題。因此,我不知何故需要認識到,哪些文章是關於同一主題的,將這些文檔聚集在一起,並僅從這樣的羣集中返回「最好」的文章。
什麼是最方便的方法來解決這個問題? 我能以某種方式利用elasticsearch更像這個API嗎?或者是https://github.com/carrot2/elasticsearch-carrot2插件的路要走?或者是沒有簡單的方法,我必須以某種方式實現我自己的版本http://en.wikipedia.org/wiki/K-means_clustering或http://en.wikipedia.org/wiki/Non-negative_matrix_factorization來集羣我的文檔?
我不明白這是如此複雜。您需要定義自己的規則來決定哪個文章比其他文章更好。爲此,您可以相應地評分您的比賽(如果在X場中找到了某個單詞,或者該單詞和該單詞已找到等),並返回最佳比分的比賽。這是Elasticsearch的全部目的:文本搜索。它給了你很多工具來查詢,評分,操縱分數,調整等,以便最終得到你所需要的。但是你需要爲「匹配」「最佳」文章定義規則。 – 2015-02-06 20:27:49