2017-04-21 73 views
0

我需要計算以rdd中的字母'A'開頭的不同單詞。使用python計算rdd中的特定單詞

我知道數不同的單詞,但我不知道有條件的單詞。

words= myRDD.distinct().count() 
print words 
+0

我們可以幫助,如果你沒有定義什麼是「RDD」。 –

+0

彈性分佈式數據集 –

回答

0

你將不得不做一個過濾器,通過開始字母,然後計數。類似下面:

words = myRDD.filter(lambda x: x[0] == "a").distinct().count() 

您也可以使用內置函數

myRDD.filter(lambda x: x.startswith('a'))