2014-10-06 38 views
2

所以我有大約1萬行的csv格式的twitter評論數據。我需要按照某些類別對其進行分類,例如「產品壽命」,「廉價/昂貴」,「折扣/折扣」等。預分類訓練的推特評論分類

正如您所看到的,我有多個類來分類這些推文數據進入。 問題是,我怎麼才能爲如此龐大的數據生成/創建培訓數據呢.Silly問題,但我想知道是否已經預分類/標記的評論數據來訓練我們的模型?如果不是,那麼創建用於文本/評論的多級分類的培訓數據的最佳方法是什麼?

雖然我已經嘗試並測試了NaiveBayes對於較小數據集的情感分類,但是能否請您建議我應該使用哪個分類器來解決此問題(多個類別將註釋分類)。

謝謝!

+0

當你發佈兩次相同的問題時,你不會得到很好的處理=(請參閱http://stackoverflow.com/help/how-to-ask – alvas 2014-10-06 10:11:43

+0

很抱歉,但是一旦我發佈了3個問題然後我不得不單獨發佈他們作爲三個職位,而背景是相同的所有這些。這就是爲什麼我發佈相同的數據的另一個方面作爲一個單獨的問題 – shalini 2014-10-06 10:42:49

回答

0

的事情是,我怎麼連生成/爲 創建訓練數據如此龐大的數據

我建議找到一個訓練數據集,可以幫助你與你有興趣的類別因此,讓我們說價格相關的文章,你可能想要找到一個關於價格相關文章的培訓數據集,然後通過使用關鍵詞的同義詞(比如便宜或者其他)來擴展它。也許看看句子結構,看看句子的結構是否有助於你的分類器算法。

如果不是那麼最好的方法來創建 多級分類的文本/評論的培訓數據?關鍵詞,拉取所有關於相關類別的文章,然後從那裏去。

最後,我建議您非常熟悉NLTK的語料庫庫,這也可以幫助您檢索訓練數據。

至於你的最後一個問題,我有點困惑於你的意思是'多個類別來分類評論',你的意思是有多個分類器的特定評論屬於?所以評論可以屬於1到更多的分類器?

+0

'多個類別來分類註釋成':註釋可以是關於多個類別(即可能屬於多個類別) – shalini 2015-06-01 13:03:47