2011-01-13 71 views
0

我正在尋找某種模塊(最好用於python),它允許我爲該模塊提供大約200個字符的字符串。然後模塊應該返回字符串有多少正面或負面的詞。 (如愛,喜歡,喜歡與討厭,不喜歡,壞)如何分析正面或負面的文字片段?

我真的很想避免在自然語言處理中重新發明輪子,所以如果有什麼你們知道的,會讓我做我上面描述的,如果你能分享,這將是一個巨大的節省時間。

感謝您的幫助!

回答

1

在分析文本片段之前,您需要通過對標點進行條帶化處理,修復語言,拆分空格,降低整個文本並將這些單詞存儲在可迭代數據結構中來預處理給定文本。

對於一些基本的情緒分析,以下技術可用於:

袋的話

的在詞技術的包包,我們基本上要經過的話一袋(文件),並檢查所取得的迭代我們包含這些。如果確實如此,那麼我們會爲每個單詞的存在賦予一些價值,以衡量文本的總體情緒。 這個鏈接應該幫助您瞭解更多關於這個 https://en.wikipedia.org/wiki/Bag-of-words_model

關鍵詞提取和標記

關鍵詞和重要信息可以從輸入文本通過標記的元素,然後刪除不需要的數據中提取。例如: 我叫約翰。 在這裏約翰,名字是信息和「是」是不是真的需要。 類似的動詞和其他不重要的東西可以被刪除,以便只保留主要信息。 塊和chinking有幫助。 此鏈接必須有幫助。 http://nltk.org/book/ch07.html

相關問題