2017-04-20 26 views

回答

0

中目前的pyspark DecisionTree沒有超參數或DecisionTreeClassifier類指定權重類(通常在偏數據集所需的或其中一個類的確切預測的重要性,更重要的是)

在不久的更新可能是添加您可以跟蹤在這裏JIRA進度

已經有它已經實現了這個一個Git分支,雖然沒有正式提供,但你可以使用現在這個拉請求: https://github.com/apache/spark/pull/16722

你^ h AVE沒有指定當前情況下,爲什麼要使用的權重,但各地的建議的工作現在

1.欠該數據集 如果您的數據集具有非常高的偏差,您可以執行的隨機undersample數據集具有非常高的頻率

2.力合身砝碼 不是一個很好的方法,但工程。您可以根據重量重複每個班級的行數。 例如,對於二元分類,如果您需要1:2的權重(0/1)分類,則可以使用標籤1重複所有行兩次。

+0

儘管此鏈接可能會回答問題,但最好在此處包含答案的基本部分,並提供供參考的鏈接。如果鏈接頁面更改,則僅鏈接答案可能會失效。 - [來自評論](/ review/low-quality-posts/18746735) –

+0

@chade_已經詳細解答 – pratiklodha

+0

@pratiklodha我見過它。我刪除了我的評論並收回了我的國旗。 –