2
我有一個熊貓數據框對象,列['text', 'label']
,標籤的值爲'pos'或'neg'。熊貓隨機抽樣配比1:1的特定列條目
問題是我有更多的'負'標籤列,因爲我有'pos'。
現在的問題是,是否存在隨機選擇與'pos'句子一樣多的'neg'句子的可能性,所以我得到一個新的數據框,兩個標籤的比例爲50:50?
我是否必須計算'pos'句子將它們全部放在一個新的數據框中,然後執行neg_df = dataframe.sample(n=pos_count)
並將其追加到之前創建的所有正數據框中,還是有更快的方法?
感謝您的幫助。
感謝這導致了我想要的行爲。 首先,我不能多次使用相同的文本行,因爲我正在使用它來訓練分類器,但是刪除'replace = True'的確有用。 其次我需要追加兩個新的幀而不是concat othervise我的分類器拋出一個錯誤。 –