推文分類

我正在嘗試進入機器學習，所以我想試試推文上的文本分類。我收集了一小部分推文，但爲了執行任何監督式學習，我需要爲我收集的一些推文貼上標籤。當我擴大數據時，這是一項艱鉅的任務。推文分類

如果沒有我手工標記大量推文，是否有任何方法執行分類？還是無人監督學習更好的這項任務？

半監督學習方法是爲這樣的問題而創建的。最簡單的方法包括手動標記少量觀察值，在標記數據上運行監督學習算法以選擇分類器來標記其他觀察值，並重復此操作。

2014-05-22 19:56:15 DatamineR

關於爲了獲得多分類體面的精確度而手動標記數據的百分比分類？由於推文如此多元化，我猜應該至少有10個班。 – user3666471

對不起，我對此不確定。但我記得讀過一個例子，其中只有2個觀察被標記，並且使用了半監督學習。所以也許如果你從10開始，那麼只使用少數幾個最重要的分類，然後重複，可以做得很好。 – DatamineR

推文是簡短的文字。你應該嘗試短文本分類，如LibShortText定製分類：https://www.csie.ntu.edu.tw/~cjlin/libshorttext/

本文介紹了簡短的文字（標題）VS全文分類的某些特性：https://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf

分類將始終參與標記數據（活動學習技術可以幫助標註數據集），但是您可以利用Snorkel（數據編程）等新興技術來緩解一些問題：https://github.com/HazyResearch/snorkel

2017-03-29 14:03:34 fjxx

回答