2012-05-02 152 views
2

我想請你給我一些建議,以解決這個問題。在大學時我一直在解決意見挖掘任務,但用Twitter的方法是完全不同的。例如,我使用集合學習方法將用戶對西班牙某酒店的意見進行分類。當然,我得到了一個有積極和消極意見的訓練集,然後我用測試集進行了測試。但現在,通過推特,我發現這種分類非常困難。如何處理twitter情緒分析?

  1. 我需要培訓嗎?如果這個問題的答案是肯定的,你不覺得twitter是如此的短暫,所以如果我有這樣的設置,我對未來主題的表現會很差?

  2. 我一直在想要得到一本字典(主要是形容詞),並將它與我的推文進行交叉並獲得一個term-document矩陣,但我沒有分配給任何twitter的類。此外,積極的形容詞和否定形容詞可能因主題和時間而異。那麼,如何處理這個?

  3. 如何處理語言問題?例如,我想學習用英語和西班牙語寫的推文,但分開。

  4. 你建議採用哪種編程語言來做這種事情?我一直在嘗試使用像tm,twitteR這樣的R包。

+0

因爲,正如你所說,Twitter的關注時間非常短,您是否試圖在短時間內(例如幾個小時)使用算法(從大學時代開始),而且算法運行良好?建議,堅持一種語言。讓你的算法以一種語言工作,然後展開。 – dirkgently

回答

1
  1. 當然,我覺得感情的方式是用來將保持不變幾個月。最糟糕的情況是你重新貼牌和再培訓。根據我的經驗,無監督學習在工業應用方面有一個糟糕的記錄。
  2. 你需要一些感情/情感東西的情感/字典 - 有一些數據集在那裏,但我忘記它們在哪裏。我可能用更好的信息回答了以前的問題。
  3. 只是做英語微博,這也很容易建立一個語言分類,但要從小做起,所以,如果你想在一個很小的代碼量做很容易把它容易對自己
  4. 的Python(NLTK) 。 Java有良好的NLP的東西,但是Python和它的庫的方式對用戶更友好
1

這個網站:https://sites.google.com/site/miningtwitter/questions/sentiment提供了3種方式做情感分析使用R.

Twitter的包現在更新與合作新的twitter API。我會下載該軟件包的源代碼版本,以免重複推文。

我正在做一個意見挖掘的西班牙語字典,並會在某處發佈訪問權限。

乾杯!