-2
正試圖學習Hadoop,我有服務器農場,有數百萬的網頁。我不知道哪些是十大最受歡迎的網頁。如何在Hadoop中做到這一點?前N個最受歡迎的網站
正試圖學習Hadoop,我有服務器農場,有數百萬的網頁。我不知道哪些是十大最受歡迎的網頁。如何在Hadoop中做到這一點?前N個最受歡迎的網站
看看基本的Wordcount示例。 您只需將'文字中的字'替換爲'網址'即可。
我才意識到我有這樣的事情已經上可以作爲一個圖書館,我寫了前段時間的例子github上:https://github.com/nielsbasjes/logparser/blob/master/examples/apache-hadoop-mapreduce/src/main/java/nl/basjes/hadoop/io/input/Wordcount.java
好了,這有點兒跳過網絡日誌的攝入部分到HDFS –
我只回答了這個問題。考慮到目前這個問題的清晰度,我選擇將自己限制在實際要求的範圍內。 (而不是爲他做功課) –
當然,但你只是通過模糊地回答幫助吸血鬼 –