2017-05-30 325 views
-1

有人可以幫我解決下面給出的問題:機器學習,Python

我們在一個SFrame中爲不同的產品列'Review'。我想創建一個WORD_COUNT列應該只算一組給定的選擇的話,而不是所有的話的發生。

另外,即使我們創建一個評論中的所有單詞的字數,我們仍然可以對得到的字典進行子集化,這將給出一個只包含所選單詞的新字典列作爲字典的鍵和相應的值。

例如,如果selected_words = [ '好', '真棒'],結果應導出WORD_COUNT = { '良好':1, '真棒':1}:在

enter image description here 由於如下面給出的前進。

+0

請張貼在這個網站了解正確的禮儀。 –

+0

在[問]和[MCVE]上了解更多信息。 –

回答

0

據我想要的分化正面和負面的評論。你必須創建與所有好的和壞的words.if審查列不包含這個詞有些感傷分析然後標記字計數爲0,否則門店數量。這個問題類似於將郵件區分爲垃圾郵件或不垃圾郵件。獲得模態的高精確度,你需要像詞幹etc.you必須培養你的模型大量的功能創新功能。

進行預處理,如果你想實現用更少的complexiy最好的方法是創建哈希表的每個特徵詞,並辦理句子和匹配散列爲每個單詞,如果散列定義,那麼增加它在其他離開它。然後將所有特徵哈希值保存在表中。爲所有評論做。