mallet

1熱度

1回答

我想使用Mallet作爲專家查找項目的一部分。我幾乎是馬利特的新手，但我知道它從一組文檔中培養主題。假設我有50個由Mallet培訓的主題。我想計算這個概率：p(topic|q)或者p(q|topic) q是查詢。這是一個詞（如算法，機器人等），我希望找到指定區域的專家。當我讀到這篇文章：how to get word-topic probability using mallet，其中一位用戶說

1熱度

2回答

hLDA的木槌推理器

我正在嘗試使用hLDA創建主題模型，然後根據該模型進行推理。但據我所見，主題推理工具只適用於LDA模型，對嗎？有沒有一種從hLDA模型推斷主題的方法？

1熱度

1回答

有沒有辦法刪除Mallet中的前綴/後綴和收縮

我最近開始使用來自UMass的Mallet。我期待看看是否有一種方法可以通過命令刪除前綴/後綴和收縮，就像stop-words有命令一樣，但是我沒有找到任何有關它的信息。如果Mallet可以做到這一點，有人可以指引我正確的方向。如果它不能，但還有其他的東西可以做到這一點，你能指出我的方向嗎？在此先感謝！

0熱度

1回答

帶有用Mallet進行序列標記的文本分類/文檔分類

我將文檔排列在文件夾中作爲類別稱爲類別。對於新的輸入（例如問題），我必須確定它的類別。用MALLET做這件事的最好方法是什麼？我已經閱讀了多篇關於這方面的文章，但是找不到這種方法。此外，我是否需要對輸入文本進行序列標記？

0熱度

1回答

如何使用Mallet Java API導入數據

我是Mallet的新手，嘗試使用CRF功能來執行命名實體識別。我知道有一個例子顯示瞭如何在他們的網站上使用Java導入數據，但它處理純文本（不是訓練集格式）。現在我有以下格式的可用培訓數據（網站上顯示的確切格式）。第一列是單詞，第二列是標籤。 a O 50 AGE year AGE old O man GENDER with O a O history O of O suici

1熱度

1回答

如何在木槌中使用--use-ngrams

我想使用--use-ngrams true選項運行木槌，但似乎無法使其工作。 bin\mallet import-file --input ovary.txt --output ovary2.mallet --keep-sequence-bigrams --remove-stopwords bin\mallet train-topics --input ovary2.mallet --outp

2熱度

1回答

在Mallet中計算的主題中單詞的權重是多少？

我試圖找出分配給主題中每個單詞的重量代表了馬槌中的重量。我假設這是某種形式的文檔發生計數。不過，我很難弄清楚這個數字是如何得出的。在我的模型，也有發生在多個主題幾個單詞，每個主題在他們分配不同的權重，這麼清楚的數量是不字數在整個語料庫。我的下一個猜測是，這個數字是分配給該主題的全套文檔中單詞的出現次數，但是當我嘗試手動驗證時，這似乎是不正確的。作爲一個例子：我訓練模型在約12000文檔語料庫

2熱度

1回答

rJava給出.jcall

我試圖運行在mallet [R包裝標準語料庫裝載方法，更具體地說 instance <- mallet.import(names(txt$CELEX), txt$TEXT, stoplist.file = "stopwords.en.txt", token.regexp = "\\p{L}[\\p{L}\\p{P}]+\\p{L}") 然後我收到以下錯誤 Error in .jcall("RJ

2熱度

2回答

馬槌基本用法。第一步

我試圖使用Mallet字面上的主題建模和沒有的expirience等我的目的是要得到，我現在所擁有的中號文件ñ主題，每個文檔與一個或多個話題進行分類（文檔1 =主題1;文檔2 =主題2，可能主題3），並在未來對此文檔進行分類。我試圖首先使用bigartm，但在這個程序中沒有發現任何分類，只有主題建模。所以槌，我創建了一個corpus.txt文件，格式如下： Doc.num. \t(tab) Lab

2熱度

1回答

如何使用Mallet進行序列標記任務？

我想將我的序列標籤任務中的木槌包裝到我的java代碼中。但是，我不確定如何在槌子網站上使用數據導入準則來做到這一點。有人能幫我解決嗎？我的第一個問題是關於序列數據的導入。我在網站上看到的唯一數據格式是InstanceList，但是，我們應該如何用數據結構來描述序列。例如，如果我們有多個序列（A，B，C是標籤）： S1：A B B B B A B B; S2：B A B B B C; S3：C B