查找鄰居元組

我正在尋找算法，但錯過了正確的關鍵字以獲得一個概述。我試圖實現的是一個函數，它可以找到元組數據集中的相關/模式/ ...（簡化）。例如：查找鄰居元組

dataset=(('a','b','c'),('1','a'), ('x','y','b','c')) 
print magic(1.0, dataset) 
-> ('b','c')

正如所看到的，該函數將返回雙元件的，即總是同時出現（1.0 = 100％）或與特定概率法。

任何人都可以告訴我哪一組算法適合我的問題嗎？也許指向一個做這個工作並被測試的lib吧？ :)

2014-06-20 MaM

'（'a'，'b'）'對應的概率是多少？那麼'（'b'，'a'）'？ –

可能相關：http://en.wikipedia.org/wiki/Cluster_analysis – shuttle87

'總是一起出現' - >聽起來就像你想對[貝葉斯定理]進行分類（http://en.wikipedia.org/wiki/貝葉斯％27_theorem）;找到B和C之間的支持。 – RJFalconer

看一看頻繁項集挖掘（FIM）和關聯規則挖掘。

在您的問題中，您基本上對A -> B類型的關聯規則感興趣，且信心百分百。

尤其是APRIORI algorithm，如果你有興趣共生比3

請注意，如果您只想對，APRIORI歸結爲掃描數據庫兩次，算上所有對較大;你修剪不了什麼。根據數據的稀疏性，相交的倒排列表可能要快得多。

2014-06-20 19:48:12

感謝提示:)作爲實現，我發現了橙色的lib，提供了不同的評論：http://orange.biolab.si/docs/latest/reference/rst/Orange.associate/ – MaM

回答