2010-10-23 61 views
4

在瞭解了MapReduce解決計算機視覺問題之後,我最近在Google實習期間,我感覺自己像一個開明的人。我一直在使用R進行文本挖掘。我想使用R進行大規模文本處理和主題建模實驗。我開始閱讀教程,並從事其中一些工作。我現在就放下我的每個工具的認識:通過R瞭解R-Hive,Elastic MapReduce,RHIPE和Distrubted Text採用R

1)R文本挖掘工具箱:意味着本地(客戶端)的文本處理,它使用XML庫

2)蜂巢:Hadoop的Interative的,提供調用map/reduce的框架,並提供用於在DFS上存儲文件的DFS接口。

3)RHIPE,R Hadoop的集成環境

4)彈性MapReduce與R:對於那些MapReduce框架沒有自己的集羣

5)分佈式文本挖掘有R誰:嘗試使無縫移動形式的本地服務器側處理,從R-TM到R-分佈式-TM

我對上述包裝

1)蜂房和RHIPE和分佈式文本MI下列問題和困惑寧工具箱需要你有你自己的集羣。對?

2)如果我有一臺電腦怎麼會在DFS HIVE

3)的情況下工作,我們是與上述包裝重複勞動的問題,面對?

我希望能得到上述問題的見解,在未來的幾天

回答

0

我不熟悉的分佈式文本挖掘爲R應用程序,但配置單元可以在本地集羣或單運行節點羣集。這可以通過實驗或實踐來完成,但是卻無法實現分佈式文件系統進行認真工作的目的。就重複工作而言,Hive的目標是在Hadoop之上完成一個完整的SQL實現,因此儘管SQL和R都可以使用文本數據,但它們都是複製,但兩者都不是特定的工具具有不同的優勢。

2

(1)Well Hive和Rhipe不需要羣集,您可以在單個節點羣集上運行它們。 RHipe基本上是一個集成了R和Hadoop的框架(R語言包),您可以利用R在Hadoop上的強大功能。對於使用Rhipe,您不需要擁有羣集,您可以以任何一種方式運行,即以羣集模式或僞模式運行。即使您有超過2個節點的Hadoop集羣,您仍然可以通過指定屬性mapered.job.tracker ='local'在本地模式下使用Rhipe。

你可以去我的網站(搜索)「班加羅爾 - [R用戶組」,你可以看到我已經嘗試使用Rhipe解決的問題,我希望你能得到一個公平的想法

(2)好Hive的意思是你的意思是R中的hive包嗎?因爲這個包與Hive(hadoop數據倉庫)有些誤導。

R中的hive包與Rhipe類似,只有一些額外的功能性(我還沒有完全完成)。當我看到我的hive包時,我認爲他們已將R與Hive集成,但在看到它的功能後不像dat。

好的Hadoop是HIVE的數據倉庫,基本上如果你對結果的某些子集感興趣,那些結果應該通過數據的子集來運行,而你通常使用SQL查詢。 HIVE中的查詢也非常類似於SQL查詢。 給你一個非常簡單的例子:可以說你在過去10年有不同股票的1TB股票數據。現在您要做的第一件事是,您將存儲在HDFS上,然後在其上創建一個HIVE表。多數民衆贊成它...現在解僱你想要的任何查詢。您也可能想要進行一些複雜的計算,例如尋找簡單的移動平均線(SMA),在這種情況下,您可以編寫UDF(用戶定義的函數)。除此之外,您還可以使用UDTF(用戶自定義表格生成功能)

(3)如果您有一個系統,表示您以僞模式運行Hadoop。此外,您不必擔心Hadoop是以僞模式還是集羣模式運行,因爲Hive只需安裝在NameNode上,而不是數據節點上。一旦完成適當的配置,配置單元將負責在羣集上提交作業。 與Hive不同,您需要在包括NameNode的所有數據節點上安裝R和Rhipe。但是,在任何時候,如果你只想在NameNode中運行這個工作,你可以像我上面提到的那樣做。

(4)Rhipe還有一件事是僅用於批處理作業,這意味着MR作業將運行在整個數據集上,而Hive可以運行在數據子集上。 (5)我想了解你在文本挖掘中究竟做了些什麼,你是否嘗試使用HMM(隱馬爾可夫模型),CRF(條件隨機場),名稱實體識別特徵向量或SVM(支持向量機)。 或者你簡單地試圖做文檔聚類,索引等 那麼有像tm,openNLP,HMM,SVM等軟件包