Apriori的最低置信度和最低支持率

Apriori algorithm的最低置信度和最低支持值的合適值是多少？你怎麼能調整它們？它們是固定值還是在算法運行期間發生變化？如果你以前使用過這個算法，你使用了什麼值？Apriori的最低置信度和最低支持率

2010-01-05 lmsasu

如果沒有關於您問題域的更多信息，我不認爲這是可回答的。這些參數的目的是爲了修剪搜索空間，所以會在效率和結果質量之間進行權衡。沒有任何一組值將對所有問題領域都是明智的。 – 2010-01-05 20:03:13

我會建議以值0.05爲支持，以0.80爲自信。但我同意你應該明白他們代表什麼，以便能夠適當地定義它們。對於規則A => B（其中A，B非空套）

Support (A ⇒ B): s = P(A, B) 
Confidence (A ⇒ B): c = P(B | A) 
Lift (A ⇒ B): L = c/P(B)

電梯重要的是要評估的規則的興趣（因爲你通常拿出數百人）。已經提出了二十多個有趣的度量。這些包括Ф係數，kappa，互信息，J-measure和基尼指數。我個人喜歡根據J-measure來規定我的規則。

J.measure (A ⇒B): J = s/c * (c*log(L) + (1-c)*log((L-c)/L))

來源

2010-01-07 13:56:41

您必須在運行算法之前設置minsup和minconf值，並且它們在挖掘過程中不會更改。

選擇minsup參數取決於您的數據。

對於某些數據，我使用了80％。對於其他一些數據，我使用0.05％。這一切都取決於數據集。通常，我從一個高值開始，然後減小值，直到找到一個能夠產生足夠多的模式的值。

爲了增強信心，這樣做更容易一些，因爲它代表了您在規則中需要的信心。所以通常我會用60％的東西。但它也取決於數據。

此外，如果您不想使用minsup參數，則可以使用top-k挖掘算法。在這種情況下，您將例如指定k = 1000，並且該算法將例如發現1000條規則，而不是使用minsup。我爲關聯規則挖掘設計了一個這樣的算法。它被稱爲TopKRules，您可以下載source code。描述它的論文即將發表。它只使用兩個參數：k和minconf。

來源

2012-03-27 02:35:31 Phil

Apriori的最低置信度和最低支持率

回答

相關問題