我正在嘗試進入機器學習,所以我想試試推文上的文本分類。我收集了一小部分推文,但爲了執行任何監督式學習,我需要爲我收集的一些推文貼上標籤。當我擴大數據時,這是一項艱鉅的任務。推文分類
如果沒有我手工標記大量推文,是否有任何方法執行分類? 還是無人監督學習更好的這項任務?
我正在嘗試進入機器學習,所以我想試試推文上的文本分類。我收集了一小部分推文,但爲了執行任何監督式學習,我需要爲我收集的一些推文貼上標籤。當我擴大數據時,這是一項艱鉅的任務。推文分類
如果沒有我手工標記大量推文,是否有任何方法執行分類? 還是無人監督學習更好的這項任務?
半監督學習方法是爲這樣的問題而創建的。最簡單的方法包括手動標記少量觀察值,在標記數據上運行監督學習算法以選擇分類器來標記其他觀察值,並重復此操作。
推文是簡短的文字。你應該嘗試短文本分類,如LibShortText定製分類:https://www.csie.ntu.edu.tw/~cjlin/libshorttext/
本文介紹了簡短的文字(標題)VS全文分類的某些特性:https://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf
分類將始終參與標記數據(活動學習技術可以幫助標註數據集),但是您可以利用Snorkel(數據編程)等新興技術來緩解一些問題:https://github.com/HazyResearch/snorkel
關於爲了獲得多分類體面的精確度而手動標記數據的百分比分類?由於推文如此多元化,我猜應該至少有10個班。 – user3666471
對不起,我對此不確定。但我記得讀過一個例子,其中只有2個觀察被標記,並且使用了半監督學習。所以也許如果你從10開始,那麼只使用少數幾個最重要的分類,然後重複,可以做得很好。 – DatamineR