2017-03-16 34 views
0

在培訓主題模型時,MALLET通過使用--output-doc-topics參數生成包含每個文檔主題分佈的製表符分隔文件。它看起來像這樣:更改MALLET中主題分配文件中的列順序

doc# filename topic# weight 
0 file:/.../document_01.txt 3  0.2110215053763441 14 0.1330645161 ... 

但是,我需要此文件以不同的方式排序進一步處理。現在,這些列按降序主題權重(0.211 ...,0.133 ...等)排序。但是,是否也可以通過提升主題編號(0,1,2,...)及其相應的權重對它進行排序?

最初,我認爲排序可以用Excel來完成,但文件太大(> 20 GB)。

有沒有可能爲此的一個MALLET參數?我已經瀏覽了--help部分,但沒有找到任何相關的內容。

否則,你能推薦一個工具或API,這是能夠進行這種排序嗎?

謝謝!

回答

1

如果你獲得最新的版本(2.0.8),默認是主題ID顯示在有序的所有主題:

--doc-topics-max INTEGER 
    When writing topic proportions per document with --output-doc-topics, do not print more than INTEGER number of topics. A negative value indicates that all topics should be printed. 
    Default is -1 
+0

完美,謝謝。 – phly