mallet

    1熱度

    1回答

    我想使用Mallet作爲專家查找項目的一部分。我幾乎是馬利特的新手,但我知道它從一組文檔中培養主題。假設我有50個由Mallet培訓的主題。我想計算這個概率:p(topic|q)或者p(q|topic) q是查詢。這是一個詞(如算法,機器人等),我希望找到指定區域的專家。 當我讀到這篇文章:how to get word-topic probability using mallet,其中一位用戶說

    1熱度

    2回答

    我正在嘗試使用hLDA創建主題模型,然後根據該模型進行推理。但據我所見,主題推理工具只適用於LDA模型,對嗎?有沒有一種從hLDA模型推斷主題的方法?

    1熱度

    1回答

    我最近開始使用來自UMass的Mallet。我期待看看是否有一種方法可以通過命令刪除前綴/後綴和收縮,就像stop-words有命令一樣,但是我沒有找到任何有關它的信息。如果Mallet可以做到這一點,有人可以指引我正確的方向。如果它不能,但還有其他的東西可以做到這一點,你能指出我的方向嗎? 在此先感謝!

    0熱度

    1回答

    我將文檔排列在文件夾中作爲類別稱爲類別。對於新的輸入(例如問題),我必須確定它的類別。用MALLET做這件事的最好方法是什麼?我已經閱讀了多篇關於這方面的文章,但是找不到這種方法。 此外,我是否需要對輸入文本進行序列標記?

    0熱度

    1回答

    我是Mallet的新手,嘗試使用CRF功能來執行命名實體識別。我知道有一個例子顯示瞭如何在他們的網站上使用Java導入數據,但它處理純文本(不是訓練集格式)。 現在我有以下格式的可用培訓數據(網站上顯示的確切格式)。第一列是單詞,第二列是標籤。 a O 50 AGE year AGE old O man GENDER with O a O history O of O suici

    1熱度

    1回答

    我想使用--use-ngrams true選項運行木槌,但似乎無法使其工作。 bin\mallet import-file --input ovary.txt --output ovary2.mallet --keep-sequence-bigrams --remove-stopwords bin\mallet train-topics --input ovary2.mallet --outp

    2熱度

    1回答

    我試圖找出分配給主題中每個單詞的重量代表了馬槌中的重量。 我假設這是某種形式的文檔發生計數。不過,我很難弄清楚這個數字是如何得出的。 在我的模型,也有發生在多個主題幾個單詞,每個主題在他們分配不同的權重,這麼清楚的數量是不字數在整個語料庫。我的下一個猜測是,這個數字是分配給該主題的全套文檔中單詞的出現次數,但是當我嘗試手動驗證時,這似乎是不正確的。 作爲一個例子:我訓練模型在約12000文檔語料庫

    2熱度

    1回答

    我試圖運行在mallet [R包裝標準語料庫裝載方法,更具體地說 instance <- mallet.import(names(txt$CELEX), txt$TEXT, stoplist.file = "stopwords.en.txt", token.regexp = "\\p{L}[\\p{L}\\p{P}]+\\p{L}") 然後我收到以下錯誤 Error in .jcall("RJ

    2熱度

    2回答

    我試圖使用Mallet字面上的主題建模和沒有的expirience等我的目的是要得到,我現在所擁有的中號文件ñ主題,每個文檔與一個或多個話題進行分類(文檔1 =主題1;文檔2 =主題2,可能主題3),並在未來對此文檔進行分類。我試圖首先使用bigartm,但在這個程序中沒有發現任何分類,只有主題建模。所以槌,我創建了一個corpus.txt文件,格式如下: Doc.num. \t(tab) Lab

    2熱度

    1回答

    我想將我的序列標籤任務中的木槌包裝到我的java代碼中。但是,我不確定如何在槌子網站上使用數據導入準則來做到這一點。有人能幫我解決嗎? 我的第一個問題是關於序列數據的導入。我在網站上看到的唯一數據格式是InstanceList,但是,我們應該如何用數據結構來描述序列。例如,如果我們有多個序列(A,B,C是標籤): S1:A B B B B A B B; S2:B A B B B C; S3:C B