如何加入RDDS我正在尋找方法來從大的索引處理並行數據, 我想過快照指數(以HDFS),然後提交火花作業要處理的記錄。基於彈性的Hadoop
其他解決方法是使用elastic with spark。
我的問題:
- 快照API輸出可以是文本文件,而不是二進制文件?
- 如何使用spark-elastic並對特定文檔執行子查詢? (可以說我有狗的索引,然後我想找到每隻狗的骨頭)?
------編輯------
我的指標變化不大,有狗指標,一個狗-關係指數。 狗指數:
...
{
name: "rex",
id: 1,
...
},
{
name: "bobby",
id : 2,
...
}
...
狗關係指數:
...
{
first_dog_id: 1,
second_dog_id: 2,
relation_type: "enemies",
...
}
...
的關係是多到很多,所以每隻狗可以在犬,關係指數許多文件。我想創建2個RDDS(狗&關係),並以某種方式加入他們在內存中沒有廣播的數據(大型索引)
關於2.,我想我會在Spark中首先讀取狗的數據,並將骨頭數據讀入內存中,而不是每次給狗一塊骨頭時都打到ES。 – ImDarrenG
@ImDarrenG我如何將這2個列表合併到內存中?我如何運行第一個RDD的分區並在第二個RDD上查詢? –
我的第一個直覺就是通過某個關鍵點來加入RDD,但假設這不起作用,請提供有關您的用例的更多信息,否則我們只是在猜測? – ImDarrenG