2016-10-21 18 views
0

因此,我已經標記推文轉發或不轉推,我必須使用邏輯迴歸建立一個模型,以預測推文是否會被轉推。如何在文本分類中對文本使用多個功能?

我面臨的問題是我不知道如何使用多特徵邏輯迴歸。我必須使用的功能是tf-idf,lda,推文是否被轉發,過去推特轉發了多少次來自特定用戶的推文。

如何在二進制分類中使用4個特徵?任何幫助將不勝感激。

+1

scikit-learn,tensorflow ...)?使用2個功能的步驟與使用4個功能相同,沒有區別。 –

+0

scikit學習。我們將如何去做呢?任何參考教程? –

+0

你可以分享你的數據集的一個小例子嗎?這樣我可以更好地幫助 –

回答

0

繼承人只是用clasiffier默認參數爲例,這個想法是,如果你有兩個相同的程序使用,或者如果你有更多的功能:

dataset = np.ndarray(shape=(num_rows,3),dtype=np.float32) ; 
retweeted_output = np.ndarray(shape=(num_rows,1),dtype=np.float32) 
#perform some actions to fill your data structures 
model = LogisticRegression(); 
model.fit(dataset,retweeted_output); 
你對於這個問題使用哪一種工具(
+0

這太好了。非常感謝。 –