我正在做一些潛在的狄利克雷分析研究,並不斷遇到問題。大多數lda軟件要求文檔採用文檔格式,即CSV或其他分隔文件,其中每行代表文檔的全部。然而,Blei's lda-c和動態主題模型軟件要求數據的格式爲:[M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]
其中[M]
是文檔中唯一條款的數量,與每個術語關聯的[count]是該術語在該文檔中出現 的次數。請注意,[term_1]
是一個整數,用於索引 項;它不是一個字符串。將單行文檔轉換爲Blei的lda-c/dtm格式以進行主題建模?
有誰知道一個實用工具,可以讓我快速轉換爲這種格式?謝謝。
我遇到類似的問題,你碰巧找到解決方案嗎?謝謝。 – user288609 2012-03-09 22:26:52
我還沒有實現它,但[這個Python實用工具](https://github.com/JoKnopp/text2ldac)被髮布到主題模型郵件列表,並應該採取文本文件並將其轉換爲正確的格式。 – Trey 2012-03-10 15:47:29
非常感謝,這非常有幫助。 – user288609 2012-03-12 21:28:10