2013-10-24 61 views
1

我正在研究一個項目,我正在使用elasticsearch來分析微博。我正在製作一個熱門話題列表(人們的興趣愛好),這是他們最經常發佈的推文。從elasticsearch api獲取詞幹

由於tweets大多數時候都有單詞需要在可以用作列表(興趣)名稱之前進行剔除。

Elasticsearch擅長從數據庫中搜索處理停用詞的刪除;藥品;等在後臺,但我想知道是否有一種方法,我可以從彈性搜索api的推特中得到干擾詞。

我認爲apache lucene可以做到這一點,但我想堅持elasticsearch。

任何人都可以建議我一種在彈性搜索中實現這一點的方法。

在此先感謝!

  • 編輯: -

讓我們假設有3個字如。播放,播放,播放等

所有這些詞在詞幹後都是相同的(所以),所以我想在這裏增加只播放(阻止詞)的計數,而不是3個非詞幹單詞的個別計數。

希望這個例子讓我的目的更加清晰。

+0

莖是不是真的很高興看到,你確定你想他們回來呢? – javanna

+0

@javanna Yaa我想幹的話他們很重要我已經更新了一個例子的問題,請檢查。 –

+0

對不起,但我不明白,你想增加什麼計數?你是不是已經在索引時間應用了詞幹? – javanna

回答