mallet

0熱度

1回答

我想了解LDA主題模型如何在槌子API中實現。在ParallelTopicModel類中，我可以看到一個稱爲typeTopicCounts的2D int數組，它在buildInitialTypeTopicCounts()方法中通過一些按位操作初始化，並稍後用於每個文檔。我的問題是這個數組值意味着什麼？我只能從源代碼中獲得的信息是它被[特徵索引，主題索引]索引。

1熱度

1回答

Mallet：OutOfMemoryError：Java堆空間

在Mallet中訓練數據時，處理由於OutOfMemoryError而停止。 bin/mallet中的屬性MEMORY已被設置爲3GB。培訓文件output.mallet的大小僅爲31 MB。我試圖減少訓練數據的大小。但它仍然拋出了同樣的錯誤： [email protected]:~/dev/test_models/Mallet$ bin/mallet train-classifier --inp

1熱度

1回答

使用Mallet擴展LDA模型

我想通過添加另一個位置層來擴展LDA模型。是否可以向Mallet添加另一個圖層？如果是這樣，我應該擴展哪些類？的過程中我試圖模型： 1.選擇一個區域 2.選擇一個主題 3.選擇一個字

1熱度

1回答

在Netbeans中運行Mallet

所以我使用Mallet創建一個簡單的標記器應用程序。我知道如何在命令提示符下使用它，並且已經創建了分類器模型。所以現在我該如何在代碼中調用該模型，以便我可以製作一個界面。因爲我只能使用命令提示符加載模型。我試圖尋找Mallet頁面，但它不在那裏。任何人都知道嗎？我真的需要這個傢伙，所以請幫助我。 TIA。訓練探索與創建模型 java命令「C：\槌\類; C：\槌\ lib中\槌dep

1熱度

1回答

創建自定義模式爲我的數據集在槌

我在使用Mallet 2.0.7在Java中用於挖掘鳴叫。根據文檔，對於主題建模，我必須使用CsvIterator讀取數據集。 Reader fileReader = new InputStreamReader(new FileInputStream(new File(args[0])), "UTF-8"); instances.addThruPipe(new CsvIterator

0熱度

1回答

獲取槌球中所有文檔的實例和主題序列

我正在使用槌球庫進行主題建模。我的數據集是在filePath路徑和csvIterator似乎可以讀取數據，因爲model.getData（）有大約27000行等於我的數據集。我寫了一個循環，打印10個第一個文檔的實例和主題序列，但記號的大小是0.我哪裏出錯了？在下面，我想顯示前10個主題中的前10個詞的比例，但所有輸出都是相同的。在cosole出例如： ----文檔0 0 0.200 COM

2熱度

2回答

木槌主題建模 - 主題鍵輸出參數

在MALLET主題建模中，--output-topic-keys [FILENAME]選項在每個主題旁邊輸出一個參數，該參數在MALLET站點的教程中稱爲主題的「Dirichlet參數」。我想知道這個參數代表什麼？在LDA模型中它是β嗎？如果不是，它是什麼意思和用途。我注意到，當我在生成主題模型時未使用參數優化選項時，此參數在版本2.0.7中與2.0.8版中不同。我想知道爲什麼會發生這種差異。

1熱度

1回答

中文字符在導入到MALLET時出現亂碼

我正在嘗試將MALLET用於中文文本的主題建模。作爲第一步我用斯坦福字分割器得到的東西看起來像這樣： > 關於處理五反運動遺留問題的指示轉發華東局批轉浙江省委批轉省委辦公廳關於糧食統銷工作與處理 > 意見的報告和對打擊富農奸商投機破壞的指示批轉中央農村工作部關於目前各地建立農業生產合作社 > 情況與問題向

0熱度

1回答

選擇一個主題模型

我是新來的主題建模和種類的困惑。我已經多次用不同的主題數量值運行MALLET。那麼我怎麼知道選擇哪一個進行進一步分析呢？我知道有些論文涉及主題模型的評估，但我不能編寫這樣的代碼。

0熱度

1回答

Mallet文檔分類 - 縮小詞彙大小

我用Mallet訓練了一個maxent文檔分類模型，結果是130MB，這對於我希望運行它的實例來說太大了。我想知道是否有辦法潛在地減少模型的詞彙量，從而減少整體模型的大小。有這樣做的管道嗎？我目前使用的管道是 Pipe instancePipe = new SerialPipes(new Pipe[]{ new Target2Label(), //creates label