2016-03-24 145 views
0
多語言文本字段

我有以下表包含數以百萬計的文檔數據的一個JSON文件的形式:符號化在Elasticsearch

+-------+---------------------------------------+------------+ 
| doc_id|   doc_text     | doc_lang | 
+-------+---------------------------------------+------------+ 
| doc1 | "first /resource X 'title' "   | en  | 
| doc2 | "<r>ressource 2 @titre en France"  | Fr  | 
| doc3 | "die Tür geöffnet?"     | ge  | 
| doc4 | "$risorsa 4 <in> lingua italiana"  | It  | 
| ... | " ........."       | ..  | 
| ... | "........."       | ..  | 
+-------+---------------------------------------+------------+ 

我需要做到以下幾點:

  1. 根據doc_lang字段中顯示的文本語言(比如說歐洲語言),使用適當的分析器(動態地)爲每個文檔文本進行令牌化,過濾和停用詞刪除。
  2. 獲取TF和IDF的doc_text領域內的每個項。(沒有搜查行動是必需的,只是進球)

Q)可能有人建議我,如果Elasticsearch在這種情況下,一個好的選擇嗎?

P.S.我正在尋找與Apache Spark兼容的東西。

+0

@kimchy,如果您有時間的話,我需要您的幫助! –

回答