如何從文本中提取關鍵字（標籤）

我目前正試圖在Java中實現標籤引擎，並搜索解決方案以從文本（文章）中提取關鍵字/標籤。我發現了一些建議使用Pointwise Mutual Information的stackoverflow解決方案。如何從文本中提取關鍵字（標籤）

我不能使用pyton和NLTK所以我要實現它自己。但我不知道如何計算概率。的計算公式如下：

PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ]

什麼，我想知道的是如何計算P（長期，DOC）

我已經有一個蘭格文本語料庫和文章的集合。文章不是語料庫的一部分。該語料庫使用lucene索引。

請幫我一把。此致敬禮。

你要提取的標籤或計算概率？你的標題建議提取標籤，但你的問題說你不知道如何計算概率 - 你爲什麼關心概率？ – Bohemian

我想提取標籤，因此我必須計算P（term，doc），但我不知道如何去做 – BauerMitFackel

爲什麼你必須計算任何東西？請定義「提取標籤」。 – Bohemian

有很多算法這樣做：

開源工具：

KEA（http://www.nzdl.org/Kea/）監督方法使用訓練數據和控制詞彙

茂宜索引（http://code.google.com/p/maui-indexer/）是基本上是爲提供關鍵短語提取使用百科全書提供便利的kea的擴展。

carrot2（http://project.carrot2.org/）用於關鍵短語提取的無監督方法。它支持許多關鍵詞提取的輸入，輸出格式和參數的變化。

Mahout的聚類算法（http://mahout.apache.org/）

商業API：

鍊金術API（http://www.alchemyapi.com/api/keyword-extraction/）

2014-08-21 12:18:49

此答案複製自 https：//www.quora。COM /什麼，是好工具對提取鍵字 - 和 - 或 - 主題標籤，從-A-隨機段落的文本/答案/維尼特-亞達夫？SRID = kKqE – MFARID

回答