如何檢查兩百萬條推文的分類結果？

喜歡的產品;
不喜歡它;和
對產品的建議。

但是，如何檢查分類結果？我應該隨機選擇一些推文，手動閱讀他們的內容，並檢查他們的內容是否與給予他們的分類標籤相符？還是有更好的方法來做到這一點？

我聽說有一些企業級軟件包可以執行多級分類，但是如果有人不通過數百萬條記錄手動檢查分類，那麼人們如何證明其結果具有重要意義呢？

2014-10-12 shalini

我什至不知道你想要什麼。如果你想分類推文，你需要有垃圾箱。例如「關於名人的推文」和「推文不關於名人」。如果你甚至沒有這個，那麼你最好的選擇就是使用無監督的學習方法，如k方法。因此，請提取關於您的推文的信息（長度，轉推次數，單詞數量等），然後使用聚類算法。如果你的交叉驗證結果是好的，這意味着你已經找到了相關的分類。（並且你不需要手動檢查） – Fezvez 2014-10-13 23:56:09

@Fezvez首先感謝你的寫作。問題在於： - 200萬條推文將「喜歡產品」，「不喜歡它」，「對產品的建議」分爲3類。現在因爲所有的推文都沒有標籤，所以你建議我使用K-means。你能否告訴我在my-3類案件中我應該尋找什麼樣的信息/特徵，我只是在上一行？這將是巨大的幫助!!!!! – shalini 2014-10-14 04:48:44

*「只需要一些方向/建議」*是**不是**在這裏SO的話題問題。 – jonrsharpe 2014-10-14 10:25:16

老實說，這是一個巨大的問題，你正在處理。

一個非常基本的方法開始（這是做的產生不良的結果，但它比沒有好），手動分類1000鳴叫。它會幫助你瞭解你將要分類的內容。

然後，在您的200萬條推文中創建1000個最流行單詞的數據庫。手動編輯這個數據庫（刪除你的問題中無用的單詞，如單詞「the」或「is」）。試着建立一個「好」字（如愛，驚人），一個「壞」字（壞，糟糕......）和一個「建議」數據庫的數據庫（建議，我沒有還要別的嗎）。我們的目標是將您的數據庫減少爲針對您的問題的最有用的單詞（例如，最終只使用100個單詞）

每條推文成爲100個大小的矢量。無論您希望使用何種技術（樸素貝葉斯， SVM等）

整個過程就是我剛剛爲垃圾郵件分類所做的一個課程。它工作得非常好（98％的識別率？）。然後，我們真正的項目是在論壇上分類仇恨郵件（諸如「死亡」之類的消息）。我認爲我們獲得了80％的認可率，這非常糟糕。但總比沒有好。

因爲您的200萬條推文未被歸類，您將很難用此方法檢查您的結果。您只能對1000個樣品進行交叉驗證。只是一個警告

來源

2014-10-14 23:05:59 Fezvez

如何檢查兩百萬條推文的分類結果？

回答

相關問題