我一直在試圖從類似這樣的表中找到流行的哈希標籤。用於瞭解來自列的流行哈希標籤的SQL查詢,該列具有作爲數組存儲的哈希標籤列表
| Tweet_id | Hashtags |
-----------------------------------------------------
| id1 | [hashtag1,hashtag2,hashtag3] |
| id2 | [hashtag2,hashtag4] |
| id3 | [] |
| id4 | [hashtag1] |
,所以我試圖打印從表中使用MySQL
查詢最頂層的發生井號標籤。從我在這方面完成的研究中,我能夠使用FIND_IN_SET
檢索到一個單一的hashtag。但是可以看出,列中的標籤數量對於行是不同的。我的查詢必須搜索數組中的所有hashtags並生成結果。
注意: 我真的在做的是我有一個json文件,我使用sparks sqlContext轉換json並將其註冊爲表格。表格看起來像上面那樣。我正在使用sqlContext.sql("//sqlquery//")
從這些表中檢索數據。
更新: - 這是架構
root
|-- hashtag: array (nullable = true)
| |-- element: string (containsNull = true)
如果可能,更改表結構,從不以逗號分隔形式存儲數據 –
嘿,感謝您的快速回復..我不應該更改表結構。這是我的教授在我的項目中提出的條件之一。 – ArCh3r
你可以顯示'printSchema'的輸出嗎? – zero323