word-frequency

    0熱度

    1回答

    我有一個Rails應用程序,其中包含兩列(名稱和說明)的數據庫。我想運行一個腳本,它將在任一列中找到所有唯一的單詞,並根據它們出現的頻率對它們進行排名。這是爲了生成索引。 我知道我需要排除某些詞(如「the」和「a」),並且計數可能因爲多元化而不完美。但我很樂意在後期處理中手動處理這個問題,我只是在尋找一個基本的腳本,它會給我所有的單詞和它們的頻率。 有沒有人有任何代碼可以做到這一點或任何指導如何

    0熱度

    1回答

    這是我的數據庫。 表: item: item_id, name order: order_id orderform: order_id, item_id, quantity 表中數據 item_id name 1 ball 2 cap 3 bat order_id 1 2 3 4 order_id item_id quantity 1 1 2 1 3

    3熱度

    2回答

    我正在嘗試使用solr來獲取單詞的頻率。當我給這個查詢: localSolr/solr/select?q=someQuery&rows=0&facet=true&facet.field=content&wt=xml solr給我的頻率像; <lst name="facet_counts"> <lst name="facet_queries"/> <lst name="facet_field

    0熱度

    1回答

    給出一個.txt文件用空格分隔的詞語,如: But where is Esope the holly Bastard But where is 생 지 옥 이 군 지 옥 이 지 옥 지 我 是 你 的 爸 爸 ! 爸 爸 ! ! ! 你 不 會 的 ! 而且awk的功能: cat /pathway/to/your/file.txt | tr ' ' '\n' | sort |

    1熱度

    1回答

    給定一個multilangual .txt文件如: But where is Esope the holly Bastard But where is 생 지 옥 이 군 지 옥 이 지 옥 지 我 是 你 的 爸 爸 ! 爸 爸 ! ! ! 你 不 會 的 ! 我計數空格分隔單詞使用該awk中功能詞頻: $ awk '{a[$1]++}END{for(k in a)print

    4熱度

    2回答

    我正在計算大小爲1.2 GB的文本文件的文字頻率,大約爲1.2億字。我正在使用下面的Python代碼。但它給我一個記憶錯誤。有沒有解決方案? 這裏是我的代碼: import re # this one in honor of 4th July, or pick text file you have!!!!!!! filename = 'inputfile.txt' # create list

    -1熱度

    1回答

    我希望能夠統計特定字段出現的字詞的頻率。 如果我要計算匹配句子的頻率,此代碼有效,但我需要它搜索到單個單詞。在代碼中做的 SELECT DISTINCT `Text`, COUNT(*) AS num FROM MyTable GROUP BY `Text` ORDER BY num DESC

    0熱度

    1回答

    是否有可能在共發現或任何其他方式知道一個詞的意義上使用最多的。對於例如「商品」一詞可能更多地用於善意,而不是「產品」。或者「密鑰」這個詞更多地用於指稱真正的密鑰而不是「解決方案」。例如這個問題的關鍵是...... 是有這樣的事?

    0熱度

    1回答

    <?php $filename = "largefile.txt"; /* get content of $filename in $content */ $content = strtolower(file_get_contents($filename)); /* split $content into array of substrings of $content

    1熱度

    3回答

    我正在處理文檔聚類問題,爲此我需要獲取文檔數據集的單詞頻率。 目前,我使用一個簡單的辦法:我創建了一個詞表,我添加儘可能多的列的數據集包含的文檔數量,獲得類似 word | document1 | document2 | ... | document n | 這種方法,即使如果速度慢,適用於小數據集(包含少於100個文檔)。問題是,現在我必須處理巨大的文件,每個文件包含700多個文件,我覺得必