是否可以從包含Postgres中的文本字符串的字段中爲每個字標識不同的單詞和計數?Postgres中字符串的字頻率?
回答
像這樣的東西?
SELECT some_pk, regexp_split_to_table(some_column, '\s') as word FROM some_table
獲取區別詞隨後容易:
SELECT DISTINCT word FROM ( SELECT regexp_split_to_table(some_column, '\s') as word FROM some_table ) t
或獲取的計對每個字:
SELECT word, count(*) FROM ( SELECT regexp_split_to_table(some_column, '\s') as word FROM some_table ) t GROUP BY word
取決於你的數據,它也可能有助於將列包裝在'lower()' – Brandon 2018-03-11 02:39:35
應該用一個空格「」或之間的其它劃符號被分割話;而不是's',除非有意這樣做,例如將'myWordshere'視爲'myWord'和'here'。
SELECT word, count(*)
FROM (
SELECT regexp_split_to_table(some_column, ' ') as word
FROM some_table
) t
GROUP BY word
\ s是一個有效的正則表達式字符集,適用於任何空白字符 – 2014-09-30 04:27:02
我低估了,因爲答案顯然誤解了正則表達式。 – Private 2016-06-13 09:33:02
你也可以使用PostgreSQL的文本搜索功能,這,例如:
SELECT * FROM ts_stat('SELECT to_tsvector(''hello dere hello hello ridiculous'')');
將產生:
word | ndoc | nentry
---------+------+--------
ridicul | 1 | 1
hello | 1 | 3
dere | 1 | 1
(3 rows)
(PostgreSQL的應用與語言相關的詞幹和停停單詞刪除,這可能是你想要的,或者可能不是。可以通過使用simple
而不是english
字典來禁用停用詞移除和詞幹化, ee值以下。)
嵌套SELECT
語句可以是產生一個tsvector字段任何select語句,所以你可以替換適用的to_tsvector
功能到任意數量的文本字段的功能,並將它們連接成一個單一的tsvector
,過您的文檔中的任意子集,例如:
SELECT * FROM ts_stat('SELECT to_tsvector(''english'',title) || to_tsvector(''english'',body) from my_documents id < 500') ORDER BY nentry DESC;
會產生從第一500個文件的title
和body
領域採取了總字數的矩陣,通過降出現的次數進行排序。對於每個單詞,您還將獲得它出現的文檔數(ndoc
列)。
請參閱文檔以獲取更多詳細信息:http://www.postgresql.org/docs/current/static/textsearch.html
- 1. 字符串中的字符頻率
- 2. 頻率在字符串中的字母
- 3. 從字符串中查找子字符串的頻率
- 4. 頻率字符串中的R
- 5. 字符頻率
- 6. 如何在Haskell中查找字符串中的字符頻率?
- 7. 字符的頻率
- 8. Postgres替換字符串中的字符
- 9. 改善字符串中字符的代碼檢查頻率
- 10. 計算字符串中不同字符的頻率數
- 11. 給定字符串中期望字符的頻率
- 12. 如何計算字符串中字符的頻率
- 13. 計算字符串中字符的頻率C++
- 14. 查找字符串數組中字符的頻率
- 15. 如何計算字符串中某個字符的頻率?
- 16. 遍歷字符串的頻率
- 17. 計算字符串的頻率
- 18. 分層字符串的頻率分佈
- 19. 在Swift字符串中計數字符頻率
- 20. 位頻率在一個字符串
- 21. 製作一個字符串頻率表
- 22. Python熊貓頻率字符串比較
- 23. 有效計算字符串中的字詞頻率
- 24. 字符串中的多字頻率計數
- 25. 查找字符串中的第k個頻率字母
- 26. 字符串中位置字母的頻率
- 27. 返回特定字符出現頻率最高的字符串
- 28. Haskell中的頻率表只有列表理解,找到字符串中的字符的頻率
- 29. 字符的排序頻率
- 30. 如何在字符串中查找字謎頻率?
如何定義「單詞」? – 2011-03-07 22:49:30