我有200萬次的鳴叫,這是我需要分爲三類:如何檢查兩百萬條推文的分類結果?
- 喜歡的產品;
- 不喜歡它;和
- 對產品的建議。
但是,如何檢查分類結果?我應該隨機選擇一些推文,手動閱讀他們的內容,並檢查他們的內容是否與給予他們的分類標籤相符?還是有更好的方法來做到這一點?
我聽說有一些企業級軟件包可以執行多級分類,但是如果有人不通過數百萬條記錄手動檢查分類,那麼人們如何證明其結果具有重要意義呢?
我有200萬次的鳴叫,這是我需要分爲三類:如何檢查兩百萬條推文的分類結果?
但是,如何檢查分類結果?我應該隨機選擇一些推文,手動閱讀他們的內容,並檢查他們的內容是否與給予他們的分類標籤相符?還是有更好的方法來做到這一點?
我聽說有一些企業級軟件包可以執行多級分類,但是如果有人不通過數百萬條記錄手動檢查分類,那麼人們如何證明其結果具有重要意義呢?
老實說,這是一個巨大的問題,你正在處理。
一個非常基本的方法開始(這是做的產生不良的結果,但它比沒有好),手動分類1000鳴叫。它會幫助你瞭解你將要分類的內容。
然後,在您的200萬條推文中創建1000個最流行單詞的數據庫。手動編輯這個數據庫(刪除你的問題中無用的單詞,如單詞「the」或「is」)。試着建立一個「好」字(如愛,驚人),一個「壞」字(壞,糟糕......)和一個「建議」數據庫的數據庫(建議,我沒有還要別的嗎)。我們的目標是將您的數據庫減少爲針對您的問題的最有用的單詞(例如,最終只使用100個單詞)
每條推文成爲100個大小的矢量。無論您希望使用何種技術(樸素貝葉斯, SVM等)
整個過程就是我剛剛爲垃圾郵件分類所做的一個課程。它工作得非常好(98%的識別率?)。然後,我們真正的項目是在論壇上分類仇恨郵件(諸如「死亡」之類的消息)。我認爲我們獲得了80%的認可率,這非常糟糕。但總比沒有好。
因爲您的200萬條推文未被歸類,您將很難用此方法檢查您的結果。您只能對1000個樣品進行交叉驗證。只是一個警告
我什至不知道你想要什麼。如果你想分類推文,你需要有垃圾箱。例如「關於名人的推文」和「推文不關於名人」。如果你甚至沒有這個,那麼你最好的選擇就是使用無監督的學習方法,如k方法。因此,請提取關於您的推文的信息(長度,轉推次數,單詞數量等),然後使用聚類算法。如果你的交叉驗證結果是好的,這意味着你已經找到了相關的分類。 (並且你不需要手動檢查) – Fezvez 2014-10-13 23:56:09
@Fezvez首先感謝你的寫作。問題在於: - 200萬條推文將「喜歡產品」,「不喜歡它」,「對產品的建議」分爲3類。現在因爲所有的推文都沒有標籤,所以你建議我使用K-means。你能否告訴我在my-3類案件中我應該尋找什麼樣的信息/特徵,我只是在上一行?這將是巨大的幫助!!!!! – shalini 2014-10-14 04:48:44
*「只需要一些方向/建議」*是**不是**在這裏SO的話題問題。 – jonrsharpe 2014-10-14 10:25:16