我正在進行情感分析,我正在使用此鏈接中提供的數據集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html
,我已將我的數據集分爲50:50比例。 50%作爲測試樣本,50%作爲訓練樣本,從火車樣本中提取特徵並使用Weka分類器進行分類,但我的預測精度爲70-75%左右。良好的情感分析數據集?
有人可以提出一些其他數據集,可以幫助我增加結果 - 我已經使用unigram,bigram和POStags作爲我的功能。
我正在進行情感分析,我正在使用此鏈接中提供的數據集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html
,我已將我的數據集分爲50:50比例。 50%作爲測試樣本,50%作爲訓練樣本,從火車樣本中提取特徵並使用Weka分類器進行分類,但我的預測精度爲70-75%左右。良好的情感分析數據集?
有人可以提出一些其他數據集,可以幫助我增加結果 - 我已經使用unigram,bigram和POStags作爲我的功能。
有許多來源獲得的情感分析數據集:從谷歌storage.googleapis.com/books/ngrams/books/datasetsv2.html
無論如何,這並不意味着它會幫助您獲得更好的當前數據集的準確性,因爲該語料庫可能與您的數據集非常不同。除了減少測試比例與培訓之外,您還可以:使用CVParameterSelection或GridSearch等半自動包裝測試其他分類器或微調所有超參數,或者如果它合適,甚至可以使用auto-weka。
使用50/50相當少見,80/20是相當常見的比例。更好的做法是使用:60%用於培訓,20%用於交叉驗證,20%用於測試。
正如你所說如果我減少火車%,它會影響學習過程。這意味着從較小的樣本中學習會是hard.also如果我增加列車%它會導致過度配合...這就是爲什麼我採取50:5)的比例.. – user3512562
這是相當罕見的使用50/50,80/20是一個相當常見的比例。更好的做法是使用:60%用於培訓,20%用於交叉驗證,20%用於測試。 PS:我只記得這個來自google http://storage.googleapis.com/books/ngrams/books/datasetsv2.html的巨大ngram數據集 – doxav
以下包含超過1,578,627個分類數據集http://thinknook.com/wp -content/uploads/2012/09/Sentiment-Analysis-Dataset.zip或http://ai.stanford.edu/~amaas/data/sentiment/ –
你可以試試這個https://www.kaggle.com/data/36745#latest-205286 – Seremonia