word-count

    5熱度

    2回答

    我是hadoop的初學者使用hadoop的初學者指導手冊的教程。 我使用的Mac OSX 10.9.2和Hadoop版本1.2.1 我已經設置所有適當的類路徑,當我打電話回聲$ PATH在終端: 這裏是我的結果得到: /Library/Frameworks/Python.framework/Versions/2.7/bin:/Users/oladotunopasina/hadoop-1.2.1/h

    -3熱度

    1回答

    因此,我發現this code來自here由Nigel Garvey,我想添加一個類似於set wordsToIgnore to {"and", "the", "a", "for", "in", "is"}類似的忽略列表。問題是我在這些事情上通常無能。能不能容忍的權力,並告訴我如何添加一個忽略列表?我已經試過各種型號頻率計數的,但是這一次給出了文本編輯正確風格的輸出,並能輸出的話砍倒在一個給定的數

    0熱度

    3回答

    我有一個包含2列和多行的數據集。 第一列ID,第二列屬於它的文本。 我想添加更多的列,總結某些字符串在行的文本中出現的次數。該字符串將是 「\ n個正\ n」, 「\ N零\ n」, 「\ n是負面的\ n」`數據集的 例子: Id, Content 2356, I like cheese.\n Positive\nI don't want to be here.\n Negative\n 3

    0熱度

    1回答

    我在程序中使用fs.copyFromLocalFile(本地路徑,Hdfs dest路徑)。 我每次都在刪除HDFS上的目標路徑,並從本地機器複製文件。但是,從本地路徑複製文件並在其上實現地圖縮小後,會生成每個文件的兩個副本,因此字數會加倍。 爲了清楚起見,我將「Home/user/desktop/input /」作爲本地路徑,HDFS dest路徑爲「/ input」。 當我檢查HDFS目標路徑

    1熱度

    1回答

    **我想知道以下幾行的含義,我是java的新手,這是我的任務的一部分。 public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { //According to my knowledge we are using this to set

    0熱度

    2回答

    我只想用java爲一篇短文寫一個簡單的字數統計方法。但是,我怎麼能擺脫不是一個字,說週期等。謝謝!

    0熱度

    2回答

    我想在這個數據集使用字數: http://snap.stanford.edu/data/web-Movies.html 我無法找到互聯網,這將有助於我這樣做的程序。 請提出建議嗎?

    1熱度

    4回答

    的遞減順序我使用這個代碼來算詞彙出現在文本文件的頻率: #!/usr/bin/python file=open("out1.txt","r+") wordcount={} for word in file.read().split(): if word not in wordcount: wordcount[word] = 1 else: word

    2熱度

    1回答

    我用Java實現了一個wordcount程序。基本上,該程序需要一個大文件(在我的測試中,我使用了一個僅包含數字的10 GB數據文件),並計算每個「單詞」出現的次數 - 在這種情況下,一個數字(例如23723可能會出現文件中的243次)。 下面是我的實現。我試圖改進它,主要考慮到性能,但還有一些其他方面,我正在尋找一些指導。以下是我希望更正的一些問題: 目前,該程序是線程化的並且正常工作。但是,我

    1熱度

    3回答

    如何在斯卡拉使用減少功能?有這樣的內置函數嗎? 我已經實現了一個程序來查找斯卡拉字數。 object count { def main(args: Array[String]) { val fruits = List("apple", "apple", "orange", "apple", "mango", "orange") val word = fruits.