我目前正試圖在Java中實現標籤引擎,並搜索解決方案以從文本(文章)中提取關鍵字/標籤。我發現了一些建議使用Pointwise Mutual Information的stackoverflow解決方案。如何從文本中提取關鍵字(標籤)
我不能使用pyton和NLTK所以我要實現它自己。但我不知道如何計算概率。 的計算公式如下:
PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ]
什麼,我想知道的是如何計算P(長期,DOC)
我已經有一個蘭格文本語料庫和文章的集合。文章不是語料庫的一部分。該語料庫使用lucene索引。
請幫我一把。 此致敬禮。
你要提取的標籤或計算概率?你的標題建議提取標籤,但你的問題說你不知道如何計算概率 - 你爲什麼關心概率? – Bohemian
我想提取標籤,因此我必須計算P(term,doc),但我不知道如何去做 – BauerMitFackel
爲什麼你必須計算任何東西?請定義「提取標籤」。 – Bohemian