我對Spark Apache非常陌生,這主要是對我自己的練習。我有兩個json文件。在數據框中搜索條件
File1 companies.json)
[
{"symbol":...,"name":...,"description":...}
.
.
]
File 2) emails.json:
[
{"from":...,"to":...,"subject":...,"body":...}
]
現在我已經通過閱讀這兩個文件合併成一個數據幀:
val companies = spark.read.json("hdfs://symbols.json")
val emails = spark.read.json("hdfs://emails-out.json")
我想要做的就是把所有的電子郵件行,並行他們並篩選出只包含搜索字詞的郵件來自companies.json中的(符號,名稱)。我在電子郵件中匹配(符號,名稱)與from,to,subject和body字段。
這個問題的最佳方法是什麼?我應該只是將電子郵件轉換爲RDD並行化行,然後檢索每個單獨的搜索詞並匹配電子郵件?一旦電子郵件包含companies.json中的任何條款,我就會返回該列表。
我一直都在這一整天,因爲我對這種發展很新。
感謝