0
我是分析領域的新成員。也許這個問題對你來說很愚蠢。我正在使用R
進行審查分類。我必須將評論分爲50個不同的類別。我手動爲模型的培訓目的標記數據。我有點困惑如何標記審查?應該爲訓練集標記句子還是整個評論?
我在這裏做的是,
首先我將單個評論轉換成句子,然後給這些句子一個特定的類別。我在這裏做什麼?
或者我必須給類別標記的審查而不打破句子?如果審查屬於多於一個類別,那麼該怎麼辦?
我是分析領域的新成員。也許這個問題對你來說很愚蠢。我正在使用R
進行審查分類。我必須將評論分爲50個不同的類別。我手動爲模型的培訓目的標記數據。我有點困惑如何標記審查?應該爲訓練集標記句子還是整個評論?
我在這裏做的是,
首先我將單個評論轉換成句子,然後給這些句子一個特定的類別。我在這裏做什麼?
或者我必須給類別標記的審查而不打破句子?如果審查屬於多於一個類別,那麼該怎麼辦?
每個評論可能有多個標籤。無論您用於分類器的功能如何,都不會影響您的標籤處理。
你的標記評論(培訓或評估)應該是這樣的:
ID Content Tags
review#1, "content of the review#1", Mexican food,spicy
review#2, "content of the review#2", American food,apple pie,dessert
其中「墨西哥食物」,「辣」,「蘋果派」,「點心」和「美式食物」都可能的標籤。對於每個評論,您只需提供那些適用的標籤。默認情況下,我們會假設其他標籤不適用。
在培訓時,您應該選擇一個適用於multi-label的分類器。
您需要在訓練之前從文本中生成特徵,現在您生成了哪些特徵? –
我正在使用一袋文字 –