2014-05-22 30 views
0

我正在嘗試進入機器學習,所以我想試試推文上的文本分類。我收集了一小部分推文,但爲了執行任何監督式學習,我需要爲我收集的一些推文貼上標籤。當我擴大數據時,這是一項艱鉅的任務。推文分類

如果沒有我手工標記大量推文,是否有任何方法執行分類? 還是無人監督學習更好的這項任務?

回答

0

半監督學習方法是爲這樣的問題而創建的。最簡單的方法包括手動標記少量觀察值,在標記數據上運行監督學習算法以選擇分類器來標記其他觀察值,並重復此操作。

+0

關於爲了獲得多分類體面的精確度而手動標記數據的百分比分類?由於推文如此多元化,我猜應該至少有10個班。 – user3666471

+0

對不起,我對此不確定。但我記得讀過一個例子,其中只有2個觀察被標記,並且使用了半監督學習。所以也許如果你從10開始,那麼只使用少數幾個最重要的分類,然後重複,可以做得很好。 – DatamineR

0

推文是簡短的文字。你應該嘗試短文本分類,如LibShortText定製分類:https://www.csie.ntu.edu.tw/~cjlin/libshorttext/

本文介紹了簡短的文字(標題)VS全文分類的某些特性:https://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf

分類將始終參與標記數據(活動學習技術可以幫助標註數據集),但是您可以利用Snorkel(數據編程)等新興技術來緩解一些問題:https://github.com/HazyResearch/snorkel