我正在使用libsvm來預測情緒。假設我使用字數,我想知道 中輸入的格式是什麼。使用libsvm進行文本分類c#
[label] [index]:[value] [index]:[value]
這是libsvm所需的格式。那麼這是否意味着我只有兩個標籤(一個用於正數,另一個用於負數),索引應該是該標籤下的每個單詞,並且該值將是每個單詞的頻率?
這是否也意味着我需要存儲單詞到索引的映射以在我的測試集中使用?
我正在使用libsvm來預測情緒。假設我使用字數,我想知道 中輸入的格式是什麼。使用libsvm進行文本分類c#
[label] [index]:[value] [index]:[value]
這是libsvm所需的格式。那麼這是否意味着我只有兩個標籤(一個用於正數,另一個用於負數),索引應該是該標籤下的每個單詞,並且該值將是每個單詞的頻率?
這是否也意味着我需要存儲單詞到索引的映射以在我的測試集中使用?
LIBSVM使用所謂的「稀疏」格式,其中零值不需要存儲。因此具有屬性
數據被表示爲
1:5 3:2
因此,你只需要specifiy的索引和非零屬性值。
標籤站在第一欄。對於二進制情況,您可以使用+1作爲正數,使用-1作爲負數採樣。順便說一句,你不僅限於2個標籤。您可以使用其他數字(例如1,2,3,4,5,...)
請看libsvm中給出的示例文件。它被稱爲heart_scale。遵循這個...這是一個很好的例子...
好吧,5代表特定句子中的單詞數(假設我們這樣做),1代表字典中單詞的索引? – VBK
看起來像那樣 – MBZ