2014-01-23 18 views
1

我有一個數據集,我需要處理PCA(主成分分析,維數減少程序),這很容易使用Weka進行。如何將Weka與Hadoop鏈接?

而且由於數據集的大小很大,Weka顯示內存問題,如果我將Weka與Hadoop鏈接,可以解決這些問題。在服務器中使用weka運行算法。任何人都可以幫我解決這個問題。如何將Weka與Hadoop連接起來處理較大的數據集?請幫忙!

三江源..

+1

這有幫助嗎? http://markahall.blogspot.in/2013/10/weka-and-hadoop-part-1.html –

回答

2

Weka 3.7擁有用於Hadoop中分佈式處理的新軟件包。這些包提供的作業之一將計算Hadoop中的相關(或協方差)矩陣。用戶可以選擇使用相關矩陣作爲PCA分析的輸入(此部分在Hadoop之外運行)並生成「受過訓練」的Weka PCA過濾器。這樣會根據實例的數量(但不包括原始功能的數量)對Weka的PCA分析進行縮放,因爲PCA計算仍然在客戶端計算機上本地發生。

有關Hadoop的包的更多信息,請參閱:

http://markahall.blogspot.co.nz/2013/10/weka-and-hadoop-part-1.html

的distributedWekaHadoop包可以通過包管理器中的Weka 3.7進行安裝。

乾杯, 馬克。

+0

Weka軟件包可以使用Hadoop 2.5.x及更高版本嗎?我試着在Hadoop 2.6.0上運行它,但它給版本不匹配。根據Mark Hall的文檔,該軟件包在Hadoop 1.1.2上運行 – mfmz