我想處理一個特定的列,我想生成文字雲。例如,將列名稱視爲「名稱」。我在該欄下有5條記錄。他們是「abc xyz」,「abc qpr xyz」,「qpr xyz」,「xyz」,「abc qpr」。所以我期待的就像是一個分詞器,我可以得到如下所述的信息:「abc」=> 3,「qpr」=> 3,「xyz」=> 4,「abc xyz」=> 1,「abc qpr xyz「=> 1,」qpr xyz「=> 2,」abc qpr「=> 2.所以我想保留不是特定單詞的頻率,而是單詞組合。如何使用Ruby來計算單詞中單詞頻率和CSV文件中單詞的組合?
0
A
回答
2
假設您的CSV看起來是這樣的:
x,y,names,...
1,2,abc xyz,...
2,3,abc qpr xyz,...
3,4,qpr xyz,...
4,5,xyz,...
5,6,abc qpr,...
下面是做這件事:
require 'csv'
CSV.foreach('data.csv', headers: true).with_object(Hash.new(0)) do |row, f|
names = row['names'] # obtain names from csv row
f[names] += 1 # increase counter for combined names
names.split.each do |name| # split names at whitespace
f[name] += 1 # increase counter for single name
end
end
#=> {"abc xyz"=>1, "abc"=>3, "xyz"=>5, "abc qpr xyz"=>1, "qpr"=>3, "qpr xyz"=>1, "abc qpr"=>1}
對於自定義,你可能想看看的CSV庫中的文件,有許多關於CSV格式,標題轉換等的可用選項。
+0
謝謝帕特里克。我想處理一個特定的列,我想生成文字雲。例如,將列名稱視爲「名稱」。我在該欄下有5條記錄。他們是「abc xyz」,「abc qpr xyz」,「qpr xyz」,「xyz」,「abc qpr」。所以我期待的就像是一個分詞器,我可以得到如下所述的信息:「abc」=> 3,「qpr」=> 3,「xyz」=> 4,「abc xyz」=> 1,「abc qpr xyz「=> 1,」qpr xyz「=> 2,」abc qpr「=> 2.所以我想保留不是特定單詞的頻率,而是單詞組合。有什麼辦法可以在ruby中提取這個? –
+0
看我的編輯,試圖符合你的要求。 –
0
假設
str
是您加載整個文件中的字符串。num
是你想要的列號。
爲了有一個統計名稱的所有不同的組合哈希:在默認情況下返回0
count = Hash.new(0)
str.split('\n').each do |line|
cols = line.split(',')
count[cols[num]] += 1
end
return count
你實例化一個Hash對象(count
),再加入1找到的每個關鍵。
相關問題
- 1. 在沒有停用詞的多個csv文件中計算單詞的頻率
- 2. 計算Python中列的單詞頻率
- 3. 在Ruby中搜索單個單詞和組合單詞
- 4. 如何從txt文件中計算單詞的頻率 - Java
- 5. 在Python中的文本文件中計算單詞的頻率
- 6. 使用R來計算單詞頻率的文本挖掘
- 7. 如何計算文本文檔中所有單詞的頻率?
- 8. 計算單詞頻率並從中製作詞典
- 9. 如何查找字典中的單詞頻率(CSV文件)
- 10. Python NLTK:使用有效的英文單詞計算單詞和概率列表
- 11. C++在兩個單詞之間的文件中計算單詞
- 12. 列表中單詞的計數頻率
- 13. 如何獲取R中的單詞頻率和相應的單詞
- 14. 使用Ruby計算JSON文件中的單詞
- 15. 如何使用Ruby和JavaScript來計算多語言文本中的單詞
- 16. Python - 在文本文件中查找單詞列表的單詞頻率
- 17. 計算文本中某個單詞的頻率數
- 18. 計算文件中的重複單詞
- 19. python計算大文件中的單詞
- 20. 組合單詞,
- 21. 檢查輸入文本中來自單詞集合的單詞
- 22. 如何使用符號替換一組單詞中的單詞?
- 23. 從文件中計算單詞
- 24. 如何計算用戶上傳時單詞文檔(.doc/.docx)中的單詞數?
- 25. 統計列表中單詞的頻率並刪除不受歡迎的單詞
- 26. 如何替換單詞,計算單詞並保存計數
- 27. 統計每個單詞的頻率
- 28. 如何在不使用集合的情況下計算單詞的頻率?
- 29. 使用NSDictionary來計算單詞在UITextField
- 30. 使用CUDA來計算所有可能的單詞組合?
你能不能顯示標題以及一些示例行?每個單元格或多個單詞是否有一個單詞? –
是的,這可以做到。你能展示你嘗試過的代碼嗎?你有什麼特別的問題嗎? –
謝謝Patrick和Justin。我想處理一個特定的列,我想生成文字雲。例如,將列名稱視爲「名稱」。我在該欄下有5條記錄。他們是「abc xyz」,「abc qpr xyz」,「qpr xyz」,「xyz」,「abc qpr」。所以我期待的就像是一個分詞器,我可以得到如下所述的信息:「abc」=> 3,「qpr」=> 3,「xyz」=> 4,「abc xyz」=> 1,「abc qpr xyz「=> 1,」qpr xyz「=> 2,」abc qpr「=> 2.所以我想保留不是一個特定單詞的頻率,而是單詞的組合。所以,反正有紅寶石提取這個信息? –