我有以下表包含數以百萬計的文檔數據的一個JSON文件的形式:符號化在Elasticsearch
+-------+---------------------------------------+------------+
| doc_id| doc_text | doc_lang |
+-------+---------------------------------------+------------+
| doc1 | "first /resource X 'title' " | en |
| doc2 | "<r>ressource 2 @titre en France" | Fr |
| doc3 | "die Tür geöffnet?" | ge |
| doc4 | "$risorsa 4 <in> lingua italiana" | It |
| ... | " ........." | .. |
| ... | "........." | .. |
+-------+---------------------------------------+------------+
我需要做到以下幾點:
- 根據doc_lang字段中顯示的文本語言(比如說歐洲語言),使用適當的分析器(動態地)爲每個文檔文本進行令牌化,過濾和停用詞刪除。
- 獲取TF和IDF的doc_text領域內的每個項。(沒有搜查行動是必需的,只是進球)
Q)可能有人建議我,如果Elasticsearch在這種情況下,一個好的選擇嗎?
P.S.我正在尋找與Apache Spark兼容的東西。
@kimchy,如果您有時間的話,我需要您的幫助! –