2016-12-06 24 views
-4

假設我有不同的關鍵字標記爲不同的內容。 如多標籤分類到不同的文本

label          content 
    great, amazing       our company is bla bla 
               bla bla bla...... 

    amazing, horrible,interesting    our company is bla bla 
               bla bla bla...... 

    boring         our company is bla bla 
               bla bla bla...... 

然後,我想利用分類機器學習模型建立一個模型。

任何人都可以教我如何使這種多標籤分類工作和構建?

p.s.我更喜歡使用scikit-learn庫

+0

查看這裏的例子http://scikit-learn.org/stable/modules/multiclass.html#multilabel-classification-format – mkaran

回答

0

是的,我在發佈此問題之前已閱讀此內容。但是,它似乎總是過度配合。這是因爲sklearn提供的例子只是用於一些簡單的文本,比如一個句子。然而,現在我所講的文字是談論大量的工作,而不僅僅是一句話。

其實,我已經讀過kaggle的例子。 (https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words)它接近我想要的,但是當我試圖將它變成多標籤分類時,它似乎很容易陷入過度擬合。

有人會和我分享他對文本挖掘問題的想法嗎?