如何在張量流框架下獲得最有價值的訓練數據

如果我想向現有的分類模型添加更多的訓練數據。由於標註訓練數據的成本很高，我只想將最有價值的數據標註到現有模型中。如何在張量流框架下獲得最有價值的訓練數據

例如，我們只有兩個班（A/B）在我們的分類問題，然後利用現有的模型來預測三個聯合國標號數據，並獲得概率分佈：

Data    A B 
Case 1: features -> 0.9 0.1 
Case 2: features -> 0.6 0.4 
Case 3: features -> 0.5 0.5

案例3應該是最有價值的培訓數據，因爲當前模型不知道它屬於哪個類。這樣對嗎？如果是的話，熵應該是一個很好的指標，但我不能找到執行tf.reduce_entropy在tensorflow

2017-04-04 Yuwen Yan

scipy.stats.entropy(pk)

你可以爲你的標籤數據的預測，然後計算熵爲每個預測。

希望這會有所幫助！

2017-04-04 19:58:45 rmeertens

回答