2016-12-01 12 views
0

我正在尋找實現低於NLP任務的最佳python庫。用於主題標記/特定主題集句子評分的Python庫

給出的例子一句,「他成爲國王瑪哈哇集拉隆功bodindradebayavarangkun查庫裏王朝的第10個君主,但也將被稱爲拉馬喜想,以接受履行他的陛下的願望和所有泰國人的利益」 (取自這篇文章的句子http://www.bbc.com/news/world-asia-38168912

我想計算這個句子的主題分數。例如,如果我將我的「主題集」定義爲{「politics」,「tech」,「business」,「health」,「entertainment」},我想輸出如下所示:{「politics」 :0.9,「tech」:0.1,「business」:0.1,「health」:0.05,「entertainment」:0.2}

我想要實現的關鍵是我想定義我的主題集,僅在該組中具有主題分數。此外,句子會相對較短,我想計算流式傳輸語句的輸出。

謝謝!

回答

1

主題建模仍然是一個難題,所以不要期望開箱即用的完美結果(尤其是沒有來自目標域的良好訓練語料庫)。

這就是說,我對gensim包有好運,特別是我會看看他們的Latent Dirichlet Allocation模塊。