2010-01-05 63 views
3

Apriori algorithm的最低置信度和最低支持值的合適值是多少?你怎麼能調整它們?它們是固定值還是在算法運行期間發生變化?如果你以前使用過這個算法,你使用了什麼值?Apriori的最低置信度和最低支持率

+0

如果沒有關於您問題域的更多信息,我不認爲這是可回答的。這些參數的目的是爲了修剪搜索空間,所以會在效率和結果質量之間進行權衡。沒有任何一組值將對所有問題領域都是明智的。 – 2010-01-05 20:03:13

回答

7

我會建議以值0.05爲支持,以0.80爲自信。但我同意你應該明白他們代表什麼,以便能夠適當地定義它們。 對於規則A => B(其中A,B非空套)

Support (A ⇒ B): s = P(A, B) 
Confidence (A ⇒ B): c = P(B | A) 
Lift (A ⇒ B): L = c/P(B) 

電梯重要的是要評估的規則的興趣(因爲你通常拿出數百人)。已經提出了二十多個有趣的度量。這些包括Ф係數,kappa,互信息,J-measure和基尼指數。我個人喜歡根據J-measure來規定我的規則。

J.measure (A ⇒B): J = s/c * (c*log(L) + (1-c)*log((L-c)/L)) 
2

您必須在運行算法之前設置minsup和minconf值,並且它們在挖掘過程中不會更改。

選擇minsup參數取決於您的數據。

對於某些數據,我使用了80%。對於其他一些數據,我使用0.05%。這一切都取決於數據集。通常,我從一個高值開始,然後減小值,直到找到一個能夠產生足夠多的模式的值。

爲了增強信心,這樣做更容易一些,因爲它代表了您在規則中需要的信心。所以通常我會用60%的東西。但它也取決於數據。

此外,如果您不想使用minsup參數,則可以使用top-k挖掘算法。在這種情況下,您將例如指定k = 1000,並且該算法將例如發現1000條規則,而不是使用minsup。我爲關聯規則挖掘設計了一個這樣的算法。它被稱爲TopKRules,您可以下載source code。描述它的論文即將發表。它只使用兩個參數:k和minconf。