3
我正在寫一個基本上是字符串的RDD的火花程序。我需要做的是基本上創建一個查詢每個字符串和基於彈性搜索索引做查詢。所以基本上查詢會不同的字符串。我想用elasticsearch-hadoop來做搜索,所以我可以進行優化。該RDD可能很大,我尋找任何可能的優化Elastisearch-Hadoop如何在火花程序中進行批量搜索
例如RDD是列表[印度,IBM公司,Netflix,勒布朗詹姆斯]。我們將在所有這些術語上創建更多像這樣的搜索,並在索引維基百科上進行搜索並找回結果。例如,我們將爲印度和IBM以及Netflix和Lebron James創建四個類似的查詢,併爲他們獲得點擊率
我確實有可以在其中使用HTTP Rest API調用批量搜索來取回點擊,但我會在我自己的優化。我想看看我們是否可以使用火花彈性連接器來創建查詢並以優化的方式進行搜索
您是否試過https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html#火花閱讀?我發現它有一個查詢選項,不知道你可以用它來運行更多的樣子 – aclokay
我需要運行一個查詢來形成rdd,而不是一組查詢。像多搜索查詢。我現在認爲你不能通過連接器進行批量查詢,並且可能會自行實施 –