2017-05-26 23 views
1

混合文本分析我的IT操作票的數據集與像票沒有,說明,類別,子類別,重點領域等用文字和類別列在R中

我需要做的是使用可用數據(票號除外)預測票優先權。示例數據如下所示。

Number Priority Created_on Description    Category  Sub Category 
719515 MEDIUM 05-01-2016 MedWay 3rd Lucene.... Server  Change 
720317 MEDIUM 07-01-2016 DI - Medway 13146409 Application Incident 
720447 MEDIUM 08-01-2016 DI QLD Chermside.... Application Medway 

請指導我。

+1

你的問題非常廣泛。請嘗試使用您遇到的特定問題加強它。其次,您可以將文本處理爲TDM,然後添加分類數據並將其用於訓練您的模型 – emilliman5

+1

謝謝emilliam ...這是我腦海中想到的東西,但不知道如何實現它。無論如何,我會給它一個鏡頭。同時,我會嘗試重新提出這個問題,使其更加緊湊。 – Sreenath1986

回答

3

沒有更多的回答就有點困難,而這更多的是一個上下文問題而不是代碼問題。但是這裏是我用來開始評估這個問題的邏輯請記住,它可能涉及編寫幾個單獨的腳本,每個腳本執行部分任務。

試着將問題分解成小塊。如果沒有所有數據,就不能通過創建數據來開始分析。

您有類別和子類別已列出每個列表中的所有唯一因素,並根據您的系統和業務需求爲每個列表創建一組權重。在製作子類別權重時,請記住它們如何與類別互動(+/-以及大小)。

寫一個腳本來閱讀說明,計算所有非平凡的單詞。爲單詞創建某種分類,以幫助您構建將通過類別和子類別告知模型的列表。 值是錯誤消息,機器名稱還是其他可以使用關鍵字提取的代碼或類型的問題?

所有的單詞分組是如何有意義的? 如何有助於作出決定?

想想你決定這些事情的類別。

然後用所有零件,決定一個模型,構建,測試和改進。我知道這裏沒有代碼,但是大多數情況下,數據科學的問題解決部分發生在代碼之外。

你需要自己想出代碼。如果您在編輯後卡住了,我們可以提供幫助。

+1

謝謝@sconfluentus。我會試試這個方法。我同意我的問題非常廣泛,現在我已經刪除了一部分,稍後我會考慮。一旦我有一些進展,會在這裏更新。不幸的是,由於我沒有足夠的聲望,我不能滿足您的答案。 – Sreenath1986

+0

完全好!如果我能找到簡單的方法,我會在評論中寫下它! – sconfluentus