我有一個輸入文件,其中包含約50000個集羣的列表以及每個列表中存在多個因子(總共約1000萬條記錄),請參閱小例子如下:集羣和共生因子列表中的維恩圖
set.seed(1)
x = paste("cluster-",sample(c(1:100),500,replace=TRUE),sep="")
y = c(
paste("factor-",sample(c(letters[1:3]),300, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[1]),100, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[2]),50, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[3]),50, replace=TRUE),sep="")
)
data = data.frame(cluster=x,factor=y)
從另一個問題有點幫助,我得到了它製作的因素共同出現這樣的餅圖:
counts = with(data, table(tapply(factor, cluster, function(x) paste(as.character(sort(unique(x))), collapse='+'))))
pie(counts[counts>1])
但現在我想有一個因素共同出現的維恩圖。理想情況下,也可以採用每個因素的最小計數閾值。例如,一個不同因素的維恩圖,以便每個組中的每一個都必須在每個組中存在n> 10個才能被考慮。
我試圖找到一種方法來產生聚合的表計數,但無法使其工作。
你看任何R包文氏圖?參見G. Jay Kerns使用'venneuler'庫的[最近的例子](http://stats.stackexchange.com/questions/16802/derive-pc-ab-from-coxs-two-rules/18209#18209)或者使用'venn'庫([Murdoch,2004](http://www.jstatsoft.org/v11/c01))的Stat軟件雜誌中的這篇簡短文章。如果這純粹是關於R編程,它應該遷移到SO。 –
Avilella,這個問題可能不會得到任何答案,因爲它的主題略微偏離。你可能在SO上做得更好,它有一個活躍的R用戶社區。但請不要交叉發帖:如果您想遷移,請將標題提交給主持人注意。 – whuber
我標記了它,但我看不到它被移到SO了... – 719016