符號化在Elasticsearch

多語言文本字段

我有以下表包含數以百萬計的文檔數據的一個JSON文件的形式：符號化在Elasticsearch

+-------+---------------------------------------+------------+ 
| doc_id|   doc_text     | doc_lang | 
+-------+---------------------------------------+------------+ 
| doc1 | "first /resource X 'title' "   | en  | 
| doc2 | "<r>ressource 2 @titre en France"  | Fr  | 
| doc3 | "die Tür geöffnet?"     | ge  | 
| doc4 | "$risorsa 4 <in> lingua italiana"  | It  | 
| ... | " ........."       | ..  | 
| ... | "........."       | ..  | 
+-------+---------------------------------------+------------+

我需要做到以下幾點：

根據doc_lang字段中顯示的文本語言（比如說歐洲語言），使用適當的分析器（動態地）爲每個文檔文本進行令牌化，過濾和停用詞刪除。
獲取TF和IDF的doc_text領域內的每個項。（沒有搜查行動是必需的，只是進球）

Q）可能有人建議我，如果Elasticsearch在這種情況下，一個好的選擇嗎？

P.S.我正在尋找與Apache Spark兼容的東西。

來源

2016-03-24 K.Ali

@kimchy，如果您有時間的話，我需要您的幫助！ –

包括在doc_text領域語言代碼索引像

{ "doc_id": "doc", "doc_text_en": "xxx", "doc_lang": "en"}

時，然後你就可以指定特定郎分析儀的動態映射。

https://www.elastic.co/guide/en/elasticsearch/guide/current/custom-dynamic-mapping.html

來源

2016-03-26 00:21:45 xeye

你是說我應該爲每種語言創建一個新列？ –

ES中沒有列，每個文檔可能有不同的字段集，這是使用ES的正常方式 – xeye

符號化在Elasticsearch

回答

相關問題