1
我正在使用pySpark ML LDA庫來適應sklearn的20個新聞組數據集上的主題模型。我正在對訓練語料庫進行標準化標記化,停止詞移除和tf-idf轉換。最後,我可以得到的主題和打印出來的字指數及其權重:使用Spark LDA可視化主題
topics = model.describeTopics()
topics.show()
+-----+--------------------+--------------------+
|topic| termIndices| termWeights|
+-----+--------------------+--------------------+
| 0|[5456, 6894, 7878...|[0.03716766297248...|
| 1|[5179, 3810, 1545...|[0.12236370744240...|
| 2|[5653, 4248, 3655...|[1.90742686393836...|
...
然而,如何從長期指標與實際單詞映射到可視化的主題? 我使用HashingTF應用於字符串的標記化列表來導出術語索引。如何生成用於可視化主題的詞典(從索引到單詞的映射)?