mahout

1熱度

1回答

我在hdfs中有近200多個xml文件。我使用Mahout的XmlInputFormat來流式傳輸元素。映射器能夠獲取xml內容並進行處理。但問題是隻有第一個xml文件正在被處理。但是，當我們處理大量小文本文件時，在處理第一個文件後，下一個文件將由Hadoop傳遞給映射器。讓我知道如果這不是xml文件的默認行爲，並且應該做什麼來遍歷整個xml文件集。謝謝。

5熱度

3回答

Mahout用完堆空間

我在使用Mahout的一組推文上運行NaiveBayes。兩個文件，一個100 MB和一個300 MB。我將JAVA_HEAP_MAX更改爲JAVA_HEAP_MAX = -Xmx2000m（早些時候它是1000）。但即使如此，Mahout在抱怨堆空間錯誤之前跑了幾個小時（準確地說是2個小時）。我該怎麼做才能解決？一些更多的信息，如果它有幫助：我運行在一個節點，我的筆記本電腦infact，它有3

1熱度

1回答

問題的「轉換亨利馬烏的Maven項目到Eclipse項目」

在安裝開源軟件，如象夫，我讀了一些筆記像轉換亨利馬烏的Maven項目到Eclipse項目這是什麼意思？ Maven項目和Eclipse項目有什麼區別？

1熱度

2回答

是什麼導致了錯誤，如「構造函數未定義」

我想在Eclipse中編譯「Mahout in Action」示例代碼。有一個標題爲「LimitedMemoryDiffStorage.java」的java文件。這本質上只是定義一個類 class LimitedMemoryDiffStorage { Recommender buildRecommender(DataModel model) throws TasteException {

6熱度

4回答

實際上，您需要多少臺機器才能讓Hadoop/MapReduce/Mahout加速可並行化的計算？

我需要做一些沉重的機器學習計算。局域網上有少量機器閒置。我需要多少臺機器才能使用hadoop/mapreduce/mahout解析我的計算，比在沒有這些分佈式框架的單臺機器上運行要快得多？這是一個計算開銷與收益的實際問題，因爲我假設在兩臺機器之間分配的總時間會比不分配和僅在單個機器上運行（僅僅是因爲分配計算所涉及的所有開銷）。技術說明：一些繁重的計算是非常可並行化的。只要每臺機器都有自己的原始數

1熱度

2回答

Mahout - 推薦給某種人

我是一個新手學習mahout。我瞭解到mahout中有5個推薦人。基於用戶的，基於項目，... 我所使用的數據集是movielens 100K 我想實現基於用戶一個稍微不同的電影推薦。即，而不是將用戶ID作爲輸入來向僅一個用戶推薦電影，我想要獲取用戶人口統計信息，例如年齡範圍，性別，職業和郵政編碼。但問題是如何創建我自己的用戶相似性方法（原始的是以兩個長型用戶ID作爲參數）以及如何將u.use

2熱度

1回答

基於用戶喜歡mahout的推薦系統

我們如何根據用戶喜好或瀏覽歷史記錄在Apache Mahout上運行推薦系統？總之，基於內容的網站95％的流量是由非登錄用戶訪問的，他們將通過搜索引擎進入。他們只有通過使用IP才能使他們獨一無二。無論如何，我們可以在Apache Mahout中找到用戶的類似瀏覽行爲並推薦相關內容？

0熱度

1回答

如何追溯此編譯錯誤？

我正在學習通過從本書複製的示例開始使用mahout。但是，Eclipse編譯器給了我以下消息： > Exception in thread "main" java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory at org.apache.mahout.cf.taste.impl.model.file.FileDataModel.<c

1熱度

1回答

當我嘗試在Apache Mahout中運行示例時，此錯誤告訴我們什麼？

我學習使用Apache Mahout中，並運行它的例子之一後收到以下消息： Exception in thread "main" org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: file:/home/user1/workspace/LDAAnalysis/output/d

9熱度

4回答

具有真正大矩陣的K-means

我必須對一個真正巨大的矩陣（大約300.000x100.000的值超過100Gb）執行k均值聚類。我想知道我是否可以使用R軟件來執行此操作或Weka。我的電腦是一個8Gb內存和數百GB可用空間的多處理器。我有足夠的空間進行計算，但加載這樣的矩陣似乎是R的問題（我不認爲使用bigmemory軟件包會幫助我和大矩陣自動使用我所有的RAM然後我的交換文件如果不是足夠的空間）。所以我的問題是：我應該