通過R瞭解R-Hive，Elastic MapReduce，RHIPE和Distrubted Text採用R

在瞭解了MapReduce解決計算機視覺問題之後，我最近在Google實習期間，我感覺自己像一個開明的人。我一直在使用R進行文本挖掘。我想使用R進行大規模文本處理和主題建模實驗。我開始閱讀教程，並從事其中一些工作。我現在就放下我的每個工具的認識：通過R瞭解R-Hive，Elastic MapReduce，RHIPE和Distrubted Text採用R

1）R文本挖掘工具箱：意味着本地（客戶端）的文本處理，它使用XML庫

2）蜂巢：Hadoop的Interative的，提供調用map/reduce的框架，並提供用於在DFS上存儲文件的DFS接口。

3）RHIPE，R Hadoop的集成環境

4）彈性MapReduce與R：對於那些MapReduce框架沒有自己的集羣

5）分佈式文本挖掘有R誰：嘗試使無縫移動形式的本地服務器側處理，從R-TM到R-分佈式-TM

我對上述包裝

1）蜂房和RHIPE和分佈式文本MI下列問題和困惑寧工具箱需要你有你自己的集羣。對？

2）如果我有一臺電腦怎麼會在DFS HIVE

3）的情況下工作，我們是與上述包裝重複勞動的問題，面對？

我希望能得到上述問題的見解，在未來的幾天

來源

2010-10-23 Shivani

我不熟悉的分佈式文本挖掘爲R應用程序，但配置單元可以在本地集羣或單運行節點羣集。這可以通過實驗或實踐來完成，但是卻無法實現分佈式文件系統進行認真工作的目的。就重複工作而言，Hive的目標是在Hadoop之上完成一個完整的SQL實現，因此儘管SQL和R都可以使用文本數據，但它們都是複製，但兩者都不是特定的工具具有不同的優勢。

來源

2010-10-29 07:23:13

（1）Well Hive和Rhipe不需要羣集，您可以在單個節點羣集上運行它們。 RHipe基本上是一個集成了R和Hadoop的框架（R語言包），您可以利用R在Hadoop上的強大功能。對於使用Rhipe，您不需要擁有羣集，您可以以任何一種方式運行，即以羣集模式或僞模式運行。即使您有超過2個節點的Hadoop集羣，您仍然可以通過指定屬性mapered.job.tracker ='local'在本地模式下使用Rhipe。

你可以去我的網站（搜索）「班加羅爾 - [R用戶組」，你可以看到我已經嘗試使用Rhipe解決的問題，我希望你能得到一個公平的想法

（2）好Hive的意思是你的意思是R中的hive包嗎？因爲這個包與Hive（hadoop數據倉庫）有些誤導。

R中的hive包與Rhipe類似，只有一些額外的功能性（我還沒有完全完成）。當我看到我的hive包時，我認爲他們已將R與Hive集成，但在看到它的功能後不像dat。

好的Hadoop是HIVE的數據倉庫，基本上如果你對結果的某些子集感興趣，那些結果應該通過數據的子集來運行，而你通常使用SQL查詢。 HIVE中的查詢也非常類似於SQL查詢。給你一個非常簡單的例子：可以說你在過去10年有不同股票的1TB股票數據。現在您要做的第一件事是，您將存儲在HDFS上，然後在其上創建一個HIVE表。多數民衆贊成它...現在解僱你想要的任何查詢。您也可能想要進行一些複雜的計算，例如尋找簡單的移動平均線（SMA），在這種情況下，您可以編寫UDF（用戶定義的函數）。除此之外，您還可以使用UDTF（用戶自定義表格生成功能）

（3）如果您有一個系統，表示您以僞模式運行Hadoop。此外，您不必擔心Hadoop是以僞模式還是集羣模式運行，因爲Hive只需安裝在NameNode上，而不是數據節點上。一旦完成適當的配置，配置單元將負責在羣集上提交作業。與Hive不同，您需要在包括NameNode的所有數據節點上安裝R和Rhipe。但是，在任何時候，如果你只想在NameNode中運行這個工作，你可以像我上面提到的那樣做。

（4）Rhipe還有一件事是僅用於批處理作業，這意味着MR作業將運行在整個數據集上，而Hive可以運行在數據子集上。（5）我想了解你在文本挖掘中究竟做了些什麼，你是否嘗試使用HMM（隱馬爾可夫模型），CRF（條件隨機場），名稱實體識別特徵向量或SVM（支持向量機）。或者你簡單地試圖做文檔聚類，索引等那麼有像tm，openNLP，HMM，SVM等軟件包

來源

2011-11-02 17:18:48

通過R瞭解R-Hive，Elastic MapReduce，RHIPE和Distrubted Text採用R

回答

相關問題