word-frequency

    10熱度

    1回答

    我想將此矩陣轉換爲熊貓數據框。 csc_matrix ,括號中的第一數應該是索引,所述第二數爲列和數到底作爲數據。 我想做這個來做文本分析中的特徵選擇,第一個數字代表文檔,第二個數字代表單詞的特徵,最後一個數字代表TFIDF分數。 獲取數據框有助於將文本分析問題轉換爲數據分析。

    1熱度

    3回答

    說,我含有線的項目的數據[1],隨後在線路其頻率計數[2] Item Frequency.Count A 5 B 4 C 3 D 2 E 1 但我想輸出是這樣的: Data A A A A A . . . C C C D D E 這有點下面的代碼的反向: my_list = sorted(word_freq.items(), ke

    0熱度

    1回答

    我使用R中的tm包進行一些文本挖掘。我有一個術語頻率矩陣,其中每一行都是一個文檔,每一列都是一個單詞,每個單元都是這個單詞的頻率。我試圖將其轉換爲DocumentTermTermMatrix對象。我似乎無法找到處理該問題的功能。看起來來源通常是文件。 我試過as.DocumentTermTermMatrix()但它要求一個說法「加權」給了以下錯誤: Error in .TermDocumentMa

    1熱度

    2回答

    我想從未壓縮形式的大約20 GB的Google N-Grams dataset中提取最頻繁的單詞。我不希望整個數據集出現,只有最常見的5000個數據集。但如果我寫 take 5000 $ sortBy (flip $ comparing snd) dataset -- dataset :: IO [(word::String, frequency::Int)] 這將是一個無盡的等待。但是我應

    2熱度

    2回答

    所以我在寫作業問題時遇到了問題。 Write a function word_counter(input_str) which takes a string input_str and returns a dictionary mapping words in input_str to their occurrence counts. 所以我到目前爲止的代碼是: def word_counter(

    0熱度

    1回答

    對不起,但對我來說很困難: 我有一些基本頻率的代碼用於某些文本,它代表「most_common」模式下的輸出。但它用文字表示。 def sym(senten): stopwords = nltk.corpus.stopwords.words("english") V = [",", ".", "'", "(", ")", '"', "'", ":", "it", "may",

    0熱度

    1回答

    我一直在嘗試檢測文字片段上的word/bigram趨勢。到目前爲止,我所做的是刪除停用詞,降低詞頻並獲得詞頻,並將每個文本的最常用30個附加到列表中。 [(u'seeing', 2), (u'said.', 2), (u'one', 2), (u'death', 2), (u'entertainment', 2), (u'it\u2019s', 2), (u'weiss', 2), (u'read

    0熱度

    1回答

    我有一個龐大的維基百科文章的文本文件,文件的每一行都是一篇文章。我想創建一個由字符串數組組成的RDD,每個數組將表示一行文本文件(一篇完整的文章),然後我要計算每個數組的字頻率,所以最後我會得到: [[第一條字頻元組],[第二條字頻元組],...] 我創建RDD: corpus = sc.textFile("articles.txt") 然後我做平面地圖中不同分裂字符串陣列 docs = co

    -6熱度

    3回答

    我使用: from collections import Counter wordlist = open('mybook.txt','r').read().split() c = Counter(wordlist) print c # result : # Counter({'the': 9530, 'to': 5004, 'a': 4203, 'and': 4202, 'was':

    0熱度

    2回答

    的,我有以下ElasticSearch查詢: { "from": 0, "sort": [ "_score" ], "fields": [ "id", "title", "text" ], "query": { "query_string": { "fields": [