4
我有一個名爲'ticket_diary_comment'
的表,其列名爲'comment_text'
。該列填充了文本數據。我想獲得整個專欄中出現的所有單詞的頻率。例如:在SQL Server 2008列中出現的所有單詞的字數
Comment_Text
I am a good guy
I am a bad guy
I am not a guy
我想要什麼:
Word Frequency
I 3
good 1
bad 1
not 1
guy 3
請注意,我還刪除停用詞輸出。我知道計算一個特定單詞的頻率並不困難,但我正在尋找一些能夠計算列中出現的所有單詞的方法,從而消除停用詞。
我希望在這個問題上的任何形式的幫助。 我還想提一提,我必須在大數據集(大約1TB)上應用此查詢,因此性能是一個問題。