2014-09-25 31 views

回答

1

我不是數據專家,但我有一些數據挖掘經驗。我會嘗試按以下步驟進行初學者:

  1. Excel對於這樣的分析不是一件好事。尋找一些專用於數據挖掘的工具RStudio。 R有許多用於數據挖掘的有用的現成算法。

  2. 清理數據,例如將所有文本轉換爲小寫,刪除停用詞,刪除標點符號,刪除其他空格。

  3. 令牌數據例如1個詞語標記 - 「財務」,「學士」

  4. 決定如何確定某個配置文件是否處於需求狀態?如果按照配置文件,則表示您需要更頻繁地出現在數據中的特定令牌的頻率信息,然後其他人「金融」,「學士」等,然後簡單地創建一個頻率矩陣。 R可以讓你創建一個可視化 - 詞雲。

這是讓你開始:)。我相信在這個問題上還有很多需要提出的建議。

+0

謝謝你的回覆湯姆。 – Saurabh 2014-09-25 11:23:56