mallet

    0熱度

    1回答

    我想了解LDA主題模型如何在槌子API中實現。在ParallelTopicModel類中,我可以看到一個稱爲typeTopicCounts的2D int數組,它在buildInitialTypeTopicCounts()方法中通過一些按位操作初始化,並稍後用於每個文檔。我的問題是這個數組值意味着什麼?我只能從源代碼中獲得的信息是它被[特徵索引,主題索引]索引。

    1熱度

    1回答

    在Mallet中訓練數據時,處理由於OutOfMemoryError而停止。 bin/mallet中的屬性MEMORY已被設置爲3GB。培訓文件output.mallet的大小僅爲31 MB。我試圖減少訓練數據的大小。但它仍然拋出了同樣的錯誤: [email protected]:~/dev/test_models/Mallet$ bin/mallet train-classifier --inp

    1熱度

    1回答

    我想通過添加另一個位置層來擴展LDA模型。 是否可以向Mallet添加另一個圖層?如果是這樣,我應該擴展哪些類? 的過程中我試圖模型: 1.選擇一個區域 2.選擇一個主題 3.選擇一個字

    1熱度

    1回答

    所以我使用Mallet創建一個簡單的標記器應用程序。 我知道如何在命令提示符下使用它,並且已經創建了分類器模型。 所以現在我該如何在代碼中調用該模型,以便我可以製作一個界面。 因爲我只能使用命令提示符加載模型。 我試圖尋找Mallet頁面,但它不在那裏。任何人都知道嗎? 我真的需要這個傢伙,所以請幫助我。 TIA。 訓練探索與創建模型 java命令 「C:\槌\類; C:\槌\ lib中\槌dep

    1熱度

    1回答

    我在使用Mallet 2.0.7在Java中用於挖掘鳴叫。 根據文檔,對於主題建模,我必須使用CsvIterator讀取數據集。 Reader fileReader = new InputStreamReader(new FileInputStream(new File(args[0])), "UTF-8"); instances.addThruPipe(new CsvIterator

    0熱度

    1回答

    我正在使用槌球庫進行主題建模。我的數據集是在filePath路徑和csvIterator似乎可以讀取數據,因爲model.getData()有大約27000行等於我的數據集。 我寫了一個循環,打印10個第一個文檔的實例和主題序列,但記號的大小是0.我哪裏出錯了? 在下面,我想顯示前10個主題中的前10個詞的比例,但所有輸出都是相同的。在cosole出 例如: ----文檔0 0 0.200 COM

    2熱度

    2回答

    在MALLET主題建模中,--output-topic-keys [FILENAME]選項在每個主題旁邊輸出一個參數,該參數在MALLET站點的教程中稱爲主題的「Dirichlet參數」。 我想知道這個參數代表什麼?在LDA模型中它是β嗎?如果不是,它是什麼意思和用途。 我注意到,當我在生成主題模型時未使用參數優化選項時,此參數在版本2.0.7中與2.0.8版中不同。我想知道爲什麼會發生這種差異。

    1熱度

    1回答

    我正在嘗試將MALLET用於中文文本的主題建模。作爲第一步我用斯坦福字分割器得到的東西看起來像這樣: > 關於 處理 五反運動 遺留 問題 的 指示 轉發 華東局 批轉 浙江 省委 批轉 省委 辦公廳 關於 糧食 統銷 工作 與 處理 > 意見 的 報告 和 對 打擊 富農 奸商 投機 破壞 的 指示 批轉 中央 農村 工作部 關於 目前 各地 建立 農業 生產 合作社 > 情況 與 問題 向

    0熱度

    1回答

    我是新來的主題建模和種類的困惑。我已經多次用不同的主題數量值運行MALLET。那麼我怎麼知道選擇哪一個進行進一步分析呢?我知道有些論文涉及主題模型的評估,但我不能編寫這樣的代碼。

    0熱度

    1回答

    我用Mallet訓練了一個maxent文檔分類模型,結果是130MB,這對於我希望運行它的實例來說太大了。我想知道是否有辦法潛在地減少模型的詞彙量,從而減少整體模型的大小。有這樣做的管道嗎?我目前使用的管道是 Pipe instancePipe = new SerialPipes(new Pipe[]{ new Target2Label(), //creates label