我有一大批標註爲pos
和neg
的文字,用於對文本進行分類。我使用TextBlob(根據this tutorial)對文本進行分類。雖然它運行得很好,但對於大型訓練集(例如8k字)可能非常緩慢。scikit-learn:使用自定義標籤對文本進行分類
我想嘗試使用scikit-learn
這樣做,但我不確定從哪裏開始。上述教程在scikit-learn
中看起來如何?我也希望訓練集包含某些單詞的權重。有些應該保證特定文本被歸類爲「正面」,而另一些則保證歸類爲「負面」。最後,有沒有辦法暗示分析文本的某些部分比其他部分更有價值?
任何指向現有教程或文檔的指針讚賞!
好資源,謝謝;我確實需要購買那本書!一個問題:如果我的訓練集字面上只是用布爾值標記的單個單詞(每個表示都無關緊要),是否仍可以構建一個用於多語句文本的分類器?我認爲這些模型的工作原理是分析整個文本,創建概率表,然後對輸入文本應用集合啓發式。 – mart1n
哈希矢量化器使用TF-IDF爲單詞分配數值。 TF部分將只關心每個樣本 - 因此每個樣本的值都是1。 IDF部分將每個樣本與所有樣本進行比較,這就是您的數字特徵將如何創建。既然你會試圖從一個單一的數字特徵預測情緒,你可以覆蓋直方圖(由情感着色),並看到它在訓練任何模型之前將如何工作。 – AlexG