pyspark決策樹中的樣本權重

您是否知道是否有方法將樣本權重放在pySpark（2.0+）中的DecisionTreeClassifier算法中？在此先感謝！pyspark決策樹中的樣本權重

2017-04-20 dasirra

中目前的pyspark DecisionTree沒有超參數或DecisionTreeClassifier類指定權重類（通常在偏數據集所需的或其中一個類的確切預測的重要性，更重要的是）

在不久的更新可能是添加您可以跟蹤在這裏JIRA進度

已經有它已經實現了這個一個Git分支，雖然沒有正式提供，但你可以使用現在這個拉請求： https://github.com/apache/spark/pull/16722

你^ h AVE沒有指定當前情況下，爲什麼要使用的權重，但各地的建議的工作現在

1.欠該數據集 如果您的數據集具有非常高的偏差，您可以執行的隨機undersample數據集具有非常高的頻率

2.力合身砝碼 不是一個很好的方法，但工程。您可以根據重量重複每個班級的行數。例如，對於二元分類，如果您需要1：2的權重（0/1）分類，則可以使用標籤1重複所有行兩次。

2018-02-07 07:52:09 pratiklodha

儘管此鏈接可能會回答問題，但最好在此處包含答案的基本部分，並提供供參考的鏈接。如果鏈接頁面更改，則僅鏈接答案可能會失效。 - [來自評論]（/ review/low-quality-posts/18746735） –

@chade_已經詳細解答 – pratiklodha

@pratiklodha我見過它。我刪除了我的評論並收回了我的國旗。 –

回答