我正在研究我的機器學習模型和我擁有的數據的功能。我的數據包含很多文本數據,所以我想知道如何從中提取有價值的功能。相反,我以前的信仰,這往往是由表示與袋的字,或像word2vec:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)使用文本情感作爲機器學習模型中的功能?
因爲我對這個問題的理解是有限的,我不明白爲什麼我不能對文本進行分析首先要獲取數值。 (例如:textBlob.sentiment = https://textblob.readthedocs.io/en/dev/,谷歌雲自然語言= https://cloud.google.com/natural-language/)
是否有這個問題,我也可以使用這些值作爲擁有我的機器學習模型?
在此先感謝您的幫助!
感謝您的回覆!這很有道理,謝謝。我正在根據youtube,twitter和facebook的用戶數據製作預測電影票房成功的模型。我會說,情緒是一個有價值的功能。此外,對我而言,集羣文本是否也適用? – Lourens
不,您的問題不是聚類,而是迴歸或分類任務基於您如何衡量成功。我認爲情緒分析可以解決你的問題。因爲,如果用戶評論對電影的肯定而不是票房真的很成功,反之亦然。 –