word-frequency

10熱度

1回答

我想將此矩陣轉換爲熊貓數據框。 csc_matrix ，括號中的第一數應該是索引，所述第二數爲列和數到底作爲數據。我想做這個來做文本分析中的特徵選擇，第一個數字代表文檔，第二個數字代表單詞的特徵，最後一個數字代表TFIDF分數。獲取數據框有助於將文本分析問題轉換爲數據分析。

1熱度

3回答

逆向在python頻率計數

說，我含有線的項目的數據[1]，隨後在線路其頻率計數[2] Item Frequency.Count A 5 B 4 C 3 D 2 E 1 但我想輸出是這樣的： Data A A A A A . . . C C C D D E 這有點下面的代碼的反向： my_list = sorted(word_freq.items(), ke

0熱度

1回答

tm中的DocumentTermMatrix的Term頻率表R包

我使用R中的tm包進行一些文本挖掘。我有一個術語頻率矩陣，其中每一行都是一個文檔，每一列都是一個單詞，每個單元都是這個單詞的頻率。我試圖將其轉換爲DocumentTermTermMatrix對象。我似乎無法找到處理該問題的功能。看起來來源通常是文件。我試過as.DocumentTermTermMatrix()但它要求一個說法「加權」給了以下錯誤： Error in .TermDocumentMa

1熱度

2回答

用於查找最常見項目的最有效的數據結構

我想從未壓縮形式的大約20 GB的Google N-Grams dataset中提取最頻繁的單詞。我不希望整個數據集出現，只有最常見的5000個數據集。但如果我寫 take 5000 $ sortBy (flip $ comparing snd) dataset -- dataset :: IO [(word::String, frequency::Int)] 這將是一個無盡的等待。但是我應

2熱度

2回答

字符串到字典字數

所以我在寫作業問題時遇到了問題。 Write a function word_counter(input_str) which takes a string input_str and returns a dictionary mapping words in input_str to their occurrence counts. 所以我到目前爲止的代碼是： def word_counter(

0熱度

1回答

Python的NLTK字詞頻率在分區

對不起，但對我來說很困難：我有一些基本頻率的代碼用於某些文本，它代表「most_common」模式下的輸出。但它用文字表示。 def sym(senten): stopwords = nltk.corpus.stopwords.words("english") V = [",", ".", "'", "(", ")", '"', "'", ":", "it", "may",

0熱度

1回答

獲取在文檔中找到的詞頻的累計計數

我一直在嘗試檢測文字片段上的word/bigram趨勢。到目前爲止，我所做的是刪除停用詞，降低詞頻並獲得詞頻，並將每個文本的最常用30個附加到列表中。 [(u'seeing', 2), (u'said.', 2), (u'one', 2), (u'death', 2), (u'entertainment', 2), (u'it\u2019s', 2), (u'weiss', 2), (u'read

0熱度

1回答

Pyspark，在由字符串數組組成的RDD中執行字數統計。

我有一個龐大的維基百科文章的文本文件，文件的每一行都是一篇文章。我想創建一個由字符串數組組成的RDD，每個數組將表示一行文本文件（一篇完整的文章），然後我要計算每個數組的字頻率，所以最後我會得到： [[第一條字頻元組]，[第二條字頻元組]，...] 我創建RDD： corpus = sc.textFile("articles.txt") 然後我做平面地圖中不同分裂字符串陣列 docs = co

-6熱度

3回答

也就是說，通過頻率排序，在一本書（.txt文件）

我使用： from collections import Counter wordlist = open('mybook.txt','r').read().split() c = Counter(wordlist) print c # result : # Counter({'the': 9530, 'to': 5004, 'a': 4203, 'and': 4202, 'was':

0熱度

2回答

ElasticSearch：在一集一集詞出現的計數頻率文獻

的，我有以下ElasticSearch查詢： { "from": 0, "sort": [ "_score" ], "fields": [ "id", "title", "text" ], "query": { "query_string": { "fields": [