我有一個1M +觀察客戶與呼叫中心交互的數據集。該文本是由代表接聽電話的自由文本。文本格式不正確,也不接近於語法正確(很多簡寫)。沒有任何自由文本在數據上有標籤,因爲我不知道要提供哪些標籤。文本分類 - 標籤預處理
鑑於數據的大小,數據的隨機抽樣(給予高度置信度)是確定要創建什麼標籤的合理第一步?是否可能不需要手動標記來自數據的400多個隨機觀測數據,還是沒有其他方法來預處理數據以確定用於分類的一組好的標記?
感謝有關此問題的任何幫助。
我有一個1M +觀察客戶與呼叫中心交互的數據集。該文本是由代表接聽電話的自由文本。文本格式不正確,也不接近於語法正確(很多簡寫)。沒有任何自由文本在數據上有標籤,因爲我不知道要提供哪些標籤。文本分類 - 標籤預處理
鑑於數據的大小,數據的隨機抽樣(給予高度置信度)是確定要創建什麼標籤的合理第一步?是否可能不需要手動標記來自數據的400多個隨機觀測數據,還是沒有其他方法來預處理數據以確定用於分類的一組好的標記?
感謝有關此問題的任何幫助。
手動註釋是一個很好的選擇,因爲您對與您的標籤相對應的理想文檔非常瞭解。
但是,對於較大的數據集大小,我建議您將適合LDA的文檔並查看生成的主題,這將爲您提供一個可用於文本分類的標籤的好主意。
您還可以使用LDA爲文本分類最終被找出代表文件爲標籤,然後通過的相似性度量查找最近的文件到文件(說餘弦)。另外,一旦你對標籤有了一個想法,你也可以在沒有任何使用LDA的人工干預的情況下分配它們,但是你將會受限於無監督學習。
希望這會有所幫助!
P.S. - 務必刪除所有的停用詞並使用詞幹分析器在預處理階段將類似的例子(管理,管理,管理)的單詞聚集在一起。
文本預處理: 將所有文本轉換爲小寫,記號化到對unigram,刪除所有站的話,使用詞幹正常化令牌到它的基數詞。
我可以想到的兩種方法是將文件分類,也就是您所說的自由文本。每個自由文本都是一個文檔:
1)受監管的分類花費一些時間並隨機選取幾個文檔樣本併爲它們分配一個類別。做到這一點,直到你有每個類別的多個文件,並且你想要預測的所有類別都被覆蓋。
接下來,從該文本創建一個Tf-Idf矩陣。選擇頂部的K個特徵(調整K的值以獲得最佳結果)。或者,您可以使用SVD通過將相關特徵合併爲一個來減少特徵的數量。請記住,您可以使用其他功能,如客戶服務主管部門和其他許多人也可以作爲預測。現在訓練一個機器學習模型並對其進行測試。
2)無監督學習:如果知道輸出變量中有多少類別,則可以使用該數字作爲要創建的羣集數量。使用上述技術中的Tf-Idf矢量並創建k個聚類。從每個羣集中隨機挑選一些文件,並確定文件屬於哪個類別。假設您選擇了5份文件,並注意到它們屬於「Wanting Refund」類別。將此羣集中的所有文檔標記爲「想要退款」。對所有剩餘的羣集執行此操作。
無監督學習的好處是它可以爲您節省預分類和數據準備的痛苦,但要小心無監督學習。準確性可能不如監督式學習。
解釋的2方法是可以做什麼的抽象概述。現在您已經有了一個想法,請閱讀有關這些主題的更多信息,並使用像rapidminer這樣的工具更快地完成您的任務。
哇。那是......強大。非常感謝。如果任何人有興趣看到這在R實現看到這裏:http://stackoverflow.com/questions/14875493/lda-with-topicmodels-how-can-i-see-which-topics-different-documents-belong-to – meb33