2014-03-27 17 views
0

我的目標是評價豬拉丁文中的推文。 我有3個詞作爲詞典使用的列表(正面詞,負面詞和無關詞)。 我想評價一下這本詞典的推文列表。我必須分析推文的每個詞。 我得率搜索鳴叫 「在法國增長」豬:爲推文賦予價值

例子:

  • 名單肯定的話:{好的,積極的,巨大的,...}
  • 列表否定詞:{不好,經濟衰退,...}
  • 名單無關的話:{德國,西班牙,奧朗德,奧巴馬,...}

鳴叫: 「增長在法國又回來了,並在西班牙太」=>分析對於每個單詞: 增長=>積極,法國=>陽性,再次=>積極,西班牙=>無關 所以這條推文是積極的,相關的,因爲積極正面+正面+ +無關=正

我試圖讓這個腳本.. 。 對不起,英語

+0

雖然你的問題是什麼?在Xplenty中,我們剛剛爲索契冬奧會做了一些Twitter分析,包括類似於你所描述的天真情緒分析。你在哪裏遇到困難? – SNeumann

+0

寫作腳本 – Archi

+0

如果答案對您有幫助,請點擊綠色複選標記將其標記爲「已接受」。 – SNeumann

回答

0

的腳本應該是什麼樣子的輪廓:

  1. 提取從高音流的鳴叫ID和文本字段。

  2. 到ID和文字使用扁平化和標記化添加一個字段 - 記號化文成字(你可以用一個簡單的空白標記生成器或東西票友NLTK,並在一個新的記錄打破每個字

  3. 將(2)的輸出與您的字典加在一起,將您的推文中的每個單詞標記爲正面,負面或中性/無關 - 您可能希望使用帶符號的整數值而不是正面/負面,以便您添加更容易
  4. 羣組結果(3)通過推文ID
  5. 計算每個推文的情感總和

    TweetsRaw = LOAD'...'使用JsonLoader(...);

    ...

    Tweets = FOREACH ... GENERATE TweetID,Text;

    TokenizedTweets = FOREACH推文生成TweetID,Text,FLATTEN(TOKENIZE(Text))爲單詞;

    Dictionary = LOAD'...'as(DictWord:chararray,polarity:int);

    Labeled_Words = JOIN TokenizedTweets BY Word,Dictionary BY DictWord;

    GroupedSentiment = GROUP Labeled_Words BY TwitterID,Text;

    結果= FOREACH GroupedSentiment生成FLATTEN(組),SUM(Labeled_Words。極性)AS率;

    DUMP結果;

+0

非常感謝!!!!!!!!!! – Archi