1

我有我需要創建一個分類模型關係數據庫的龐大數據集。通常對於這種情況我會使用ILP,但由於特殊情況我不能這樣做。關係數據挖掘,而不ILP

解決這個問題的另一種方法是試圖在我有外部關係時彙總這些值,但是對於某些名義屬性,我有數以千計的重要且不同的行(例如:與幾種不同藥物有關的患者處方),在這種情況下,我無法爲那個名義屬性的每一個不同的行創建一個新的屬性,而且如果我這樣做的話,大多數新列都會有NULL值。

是否有任何非ILP算法,可以讓我的數據挖掘關係數據庫而不訴諸於技術像旋轉這將創造數千個新的列?

+0

您可能在http://datascience.stackexchange.com/上有更多運氣。 – fxm

+0

然後將檢查它 – user3644986

回答

0

首先,一些注意事項

我不知道爲什麼你不能使用你的首選編程(子)模式*,歸納邏輯程序設計(ILP),或者它是什麼你想分類。提供更多細節可能會導致更好的答案;尤其是因爲根據與之相關的編程範例來選擇分類算法有點不同尋常。如果你的真實世界的例子是保密的,那麼簡單地構成一個虛構但相似的例子。

大數據分類,而不ILP

話雖如此,排除了ILP後,我們在我們的考慮範圍4個其他邏輯編程範例:

  1. 答案集
  2. 約束
  3. 功能

除了邏輯編程之外的幾十個範式和子範式。

在例如功能邏輯編程,存在ILP的延伸稱爲感應功能邏輯編程,其基於反轉縮小(即,節流機構的反轉)。此方法克服了ILP的一些侷限性和(according to some scholars, at least)是作爲適合於應用在代表性方面和具有允許以更自然的方式來表達問題的好處。

不知道更多有關數據庫的細節和你的臉使用ILP的障礙,我不知道這是否解決您的問題或來自同樣的問題困擾。因此,我會拋出一種完全不同的方法。

ILP is contrasted with "classical" or "propositional" approaches to data mining。這些方法包括機器學習的肉和骨骼,如決策樹,神經網絡,迴歸,裝袋和其他統計方法。由於數據規模的原因,您可以加入許多數據科學家,大數據工程師和統計人員的行列,以利用高性能計算(HPC)將這些方法應用於海量數據集(而不是還可以選擇抽樣和其他統計技術來減少分析關係數據庫中大數據所需的計算資源和時間)。

HPC包括諸如利用多個CPU核心,通過使用具有高內存和大量快速CPU內核的服務器的彈性使用,使用高性能數據倉庫設備,採用集羣或其他形式的並行計算來擴展分析,等等。我不確定你用什麼語言或統計套件來分析你的數據,但作爲一個例子,這個例子列出了許多用於R語言的HPC資源,這將允許你擴展一個命題算法。