mallet

    -1熱度

    1回答

    我想在Eclipse中使用mallet對文檔(wsdl文件)進行預處理。我想要生成特徵向量並使用短槌和MaxEntropy執行分類。我是新的使用槌,任何人都可以在這方面指導我。 感謝

    1熱度

    1回答

    使用Mallet時,如何獲取與每個文檔相關的主題列表?我想我需要使用火車主題和 - 輸出主題文檔,但是當我這樣做時,我會遇到一個錯誤。 我用槌(2.0.8),我用下面的bash腳本做我的造型: MALLET=/Users/emorgan/desktop/mallet/bin/mallet INPUT=/Users/emorgan/desktop/sermons OBJECT=./object.

    -1熱度

    1回答

    我在使用Mallet R軟件包時遇到了很大的問題。我訓練了一個很酷的模型,並希望與我的同事分享,但我該怎麼做呢?那麼,我找到了用mallet.model$writeState()保存的方法,但是我的同事無法上傳它。怎麼了?有其他軟件包可以幫助我嗎?

    -1熱度

    1回答

    我對這種計算機工作非常陌生,並且無法創建路徑。我查了一篇關於如何在線完成這個教程的教程,並將所有內容都發送到了一個tee,但是當我嘗試更改目錄路徑時,它無法正常工作。這就是我所做的 - 下載Java開發工具包 下載槌2.0.7 移動槌2.0.7下載到我的C驅動器 增添了新的環境變量 - C:\槌2.0.7 使用我以前做的CMD得到C:> cd mallet-2.0.7 然後,我得到錯誤消息「系統找

    0熱度

    1回答

    在培訓主題模型時,MALLET通過使用--output-doc-topics參數生成包含每個文檔主題分佈的製表符分隔文件。它看起來像這樣: doc# filename topic# weight 0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ... 但是,我需要此文件以不同的方式排序進一步處理。現在,這些列

    1熱度

    2回答

    我想使用木槌作爲培訓主題。我的數據在一個文件中,所以我研究瞭如何構建這個One Single文件的木槌文檔。 在Mallet website,每行部分一個文件,一個實例下,有人說: [URL] [語言] [頁的文字...] 在這種情況下,每行的第一個標記 (空格分隔,帶有可選逗號)將成爲實例名稱,第二個標記將成爲標籤,並且該行上的所有其他 文本將被解釋爲一系列的單詞標記。 所以根據上述報價,我創造

    0熱度

    1回答

    從我在文檔和各種示例中看到的, 典型的使用Mallet中的數據的worfklow要求您使用通常通過將數據傳遞到「管道「,同時用某種迭代器對它們進行迭代。數據通常存儲在某個csv文件中。 我想從兩個雙打數組中獲取功能列表。 一個數組存儲實際要素,大小爲n x m(其中n是要素的數量,m是要素矢量的數量),另一個大小爲1 x m且包含二進制標籤。我應該如何將它們轉換爲特徵列表,以便我可以在分類器中使用

    1熱度

    1回答

    我正在等待我的郵件列表中的成員身份得到確認,所以我想我會在這裏問這個問題,以便稍微加快一點。 我正在寫關於主題建模的碩士論文,並使用LDA和HLDA的Mallet實現。 我工作在一個超過400萬文件的語料庫。雖然LDA(ParallelTopicModel)正確處理數據集,我沒有遇到任何問題,但HLDA無法再走得更遠,然後讓我們說5-6次迭代,然後填充所有可用內存(我甚至用90g RAM運行程序)

    1熱度

    2回答

    我使用LDA在木槌探索我的數據。我沒有與運行相關的任何問題,只是我需要的頂部詞的概率(比方說20個字) 我使用此查詢: bin\mallet train-topics --input tutorial.mallet --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz --output-topic-

    3熱度

    1回答

    我試圖以某種方式比較一個單獨的文檔的主題分佈(使用LDA),其他文件及其在先前創建的主題模型中的主題分佈,使用MALLET。 我知道這可以通過終端中的MALLET命令來完成,但我在找到一種方法來實現這個在Java中的問題。 爲了給什麼我的程序的功能是一個要點: 已經建立的主題模型用大量語料文本的創造。我想用它來比較主題分佈與包含特定主題標籤的推文,然後從文集中提取最類似於推文的文件。 我仔細閱讀了