2016-07-21 25 views
0

我有一個RDD的字符串(全部用小寫),我想用正則表達式來匹配或找到所有以「can」開頭的單詞。我怎樣才能在Python中做到這一點?如何在字符串的RDD中使用pyspark和regex查找以my_str開頭的所有單詞?

作爲像

rdd = sc.parallelize(['canada','canpar','beauty','can']) 

我想有像

['canada','canpar','can'] 

輸出其是RDD,用於將輸入的例子。

+0

測試結果,我不明白爲什麼我得到一個負點對於我的問題。你能解釋一下它有什麼問題嗎? – Elm662

+0

你到目前爲止做了什麼? – eliasah

回答

2

對於使用字符串函數

filteredRDD = rdd.filter(lambda x: x.startswith('can')) 

隨着使用re模塊

import re 
filteredRDD = rdd.filter(lambda x: re.compile('can').match(x)) 

您可以通過收集filteredRDD的內容filteredRDD.collect()

+0

謝謝,它爲我工作! – Elm662

相關問題