2012-01-23 47 views
1

我正在評估算法,並且想使用人造數據。分類數據的人工數據集生成器

對於一維人工數據集,該算法工作正常,如this StackOverflow answer所示。

我想測試具有多維和某些特徵(例如噪聲,相關性)的數據集的算法。有人已經在R中實現了「人造數據集生成器」嗎?

任何反饋將非常感激。謝謝!

+0

您可以創建你想要的任何性質的人工數據集。如果你更具體地瞭解你想要的屬性,你會得到更好的答案。 –

+1

你是指'MASS :: mvnorm'之類的東西? –

+0

@羅曼謝謝,這將是一個開始,我猜。 – cs0815

回答

1

在R中mlbenchpackage是函數用於產生不同的維數和結構爲基準目的的數據的集合。它包括迴歸和分類數據集。

當然,這些數據集都是相當虛構的,所以它們可能並不真正反映「真實生活」的表現,因爲它們可能不會反映出您的算法的目標結構。但至少,這是一個開始的地方。

+0

謝謝。這似乎是數據集的集合(我以前曾使用過UCI)。我對生成器更感興趣,這樣我就可以看到算法的性能在哪些條件下(數據集屬性)開始崩潰。人工數據集還允許我使用「真實」(公式)未知的現有數據集來測量不可能的事情(恕我直言)。謝謝。 – cs0815

+0

抱歉,我沒有看到發生器位。謝謝 – cs0815

2

您可以使用wakefield包生成隨機數據集。

它可以輕鬆地創建數據幀,時間序列,調整相關的,甚至是可視化生成的數據,例如:

if (!require("pacman")) install.packages("pacman") 
pacman::p_load_gh("trinker/wakefield") 
pacman::p_load(dplyr, tidyr, ggplot2) 

set.seed(10) 

r_data_frame(n=100, 
    id, 
    dob, 
    animal, 
    grade, grade, 
    death, 
    dummy, 
    grade_letter, 
    gender, 
    paragraph, 
    sentence 
) %>% 
    r_na() %>% 
    plot(palette = "Set1") 

enter image description here

+1

沒有生成它的實際代碼,該圖片是沒有用的。我建議你添加相關信息,否則這將進入非常低質量的答案隊列 –

+0

會做。但這意味着要複製作者手冊中的代碼。 – epo3