2017-08-30 40 views
-1

我正在研究我的最後一年項目,我們必須創建一個應用程序來檢測惡意網址。我們必須在所有網址之間找到模式。我們有一個很大的數據集,需要很長時間才能將網址與其他網址相匹配。需要幫助爲惡意網址的數據集創建mapreduce

現在我們正在考慮將項目移到hadoop上,但我們沒有弄清楚如何爲我們的java項目和數據集製作mapreduce並將其移至hadoop。

請幫助我們爲我們的程序和數據集創建mapreduce。 任何幫助將不勝感激。

+0

如果您還未開始任何操作,請嘗試使用Apache Spark而不是MapReduce。在那裏有一些很棒的教程會告訴你如何開始。 – philantrovert

+0

與mapreduce相比,spark的性能如何?好嗎? –

+0

我想說它好多了。 – philantrovert

回答

0

MapReduce是而不是適合配對比較。

這意味着以同樣的方式「映射」所有對象。要在嚴格的MR中處理對,您將不得不大量複製您的數據。這不是一個好主意,因爲數據傳輸會導致性能下降。

成對比較問題一般不能很好地擴展。

如果您確實想要進行擴展,請考慮一種巧妙的方式,避免將所有網址與一些好的過濾器進行比較。也許你可以用MapReduce做這個過濾(並處理剩餘的對)。