我的輸入包含大量的小ORC文件,我希望在一天的每一天結束,我想將數據拆分爲100MB的塊。 我的輸入和輸出都是S3和環境中使用的電子病歷, 蜂巢參數,正在設置, set hive.msck.path.validation=ignore;
set hive.exec.reducers.bytes.per.reducer=256000000;
SET hive.exec.dynamic.parti
假設我試圖刪除這個正則表達式「RT \ s * @ USER \ w \ w {8}:\ s *」 並且我想在我的RDD中刪除這種形式的正則表達式。 我現在RDD是: text = sc.textFile(...)
delimited = text.map(lambda x: x.split("\t"))
和這裏就是我試圖刪除正則表達式的一部分。 我試着做下面的RDD轉換來擺脫每一個匹配這個