0
在培訓主題模型時,MALLET通過使用--output-doc-topics
參數生成包含每個文檔主題分佈的製表符分隔文件。它看起來像這樣:更改MALLET中主題分配文件中的列順序
doc# filename topic# weight
0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ...
但是,我需要此文件以不同的方式排序進一步處理。現在,這些列按降序主題權重(0.211 ...,0.133 ...等)排序。但是,是否也可以通過提升主題編號(0,1,2,...)及其相應的權重對它進行排序?
最初,我認爲排序可以用Excel來完成,但文件太大(> 20 GB)。
有沒有可能爲此的一個MALLET參數?我已經瀏覽了--help
部分,但沒有找到任何相關的內容。
否則,你能推薦一個工具或API,這是能夠進行這種排序嗎?
謝謝!
完美,謝謝。 – phly