如何將Weka與Hadoop鏈接？

我有一個數據集，我需要處理PCA（主成分分析，維數減少程序），這很容易使用Weka進行。如何將Weka與Hadoop鏈接？

而且由於數據集的大小很大，Weka顯示內存問題，如果我將Weka與Hadoop鏈接，可以解決這些問題。在服務器中使用weka運行算法。任何人都可以幫我解決這個問題。如何將Weka與Hadoop連接起來處理較大的數據集？請幫忙！

三江源..

2014-01-23 user1083096

這有幫助嗎？ http://markahall.blogspot.in/2013/10/weka-and-hadoop-part-1.html –

Weka 3.7擁有用於Hadoop中分佈式處理的新軟件包。這些包提供的作業之一將計算Hadoop中的相關（或協方差）矩陣。用戶可以選擇使用相關矩陣作爲PCA分析的輸入（此部分在Hadoop之外運行）並生成「受過訓練」的Weka PCA過濾器。這樣會根據實例的數量（但不包括原始功能的數量）對Weka的PCA分析進行縮放，因爲PCA計算仍然在客戶端計算機上本地發生。

有關Hadoop的包的更多信息，請參閱：

http://markahall.blogspot.co.nz/2013/10/weka-and-hadoop-part-1.html

的distributedWekaHadoop包可以通過包管理器中的Weka 3.7進行安裝。

乾杯，馬克。

來源

2014-01-30 08:26:56 user3252208

Weka軟件包可以使用Hadoop 2.5.x及更高版本嗎？我試着在Hadoop 2.6.0上運行它，但它給版本不匹配。根據Mark Hall的文檔，該軟件包在Hadoop 1.1.2上運行 – mfmz