2013-01-15 79 views
5

我目前正試圖在Java中實現標籤引擎,並搜索解決方案以從文本(文章)中提取關鍵字/標籤。我發現了一些建議使用Pointwise Mutual Information的stackoverflow解決方案。如何從文本中提取關鍵字(標籤)

Solution 1

Solution 2

我不能使用pyton和NLTK所以我要實現它自己。但我不知道如何計算概率。 的計算公式如下:

PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ] 

什麼,我想知道的是如何計算P(長期,DOC)

我已經有一個蘭格文本語料庫和文章的集合。文章不是語料庫的一部分。該語料庫使用lucene索引。

請幫我一把。 此致敬禮。

+0

你要提取的標籤或計算概率?你的標題建議提取標籤,但你的問題說你不知道如何計算概率 - 你爲什麼關心概率? – Bohemian

+0

我想提取標籤,因此我必須計算P(term,doc),但我不知道如何去做 – BauerMitFackel

+0

爲什麼你必須計算任何東西?請定義「提取標籤」。 – Bohemian

回答

0

有很多算法這樣做:

開源工具:

KEA(http://www.nzdl.org/Kea/)監督方法使用訓練數據和控制詞彙

茂宜索引(http://code.google.com/p/maui-indexer/)是基本上是爲提供關鍵短語提取使用百科全書提供便利的kea的擴展。

carrot2(http://project.carrot2.org/)用於關鍵短語提取的無監督方法。它支持許多關鍵詞提取的輸入,輸出格式和參數的變化。

槌主題建模模塊(http://mallet.cs.umass.edu/topics.php

斯坦福主題建模工具(http://nlp.stanford.edu/software/tmt/tmt-0.3/

Mahout的聚類算法(http://mahout.apache.org/

商業API:

鍊金術API(http://www.alchemyapi.com/api/keyword-extraction/

Zemanta的API(http://www.zemanta.com/developer/

雅虎術語提取API(http://developer.yahoo.com/contentanalysis/

+1

此答案複製自 https://www.quora。COM /什麼,是好工具對提取鍵字 - 和 - 或 - 主題標籤,從-A-隨機段落的文本/答案/維尼特-亞達夫?SRID = kKqE – MFARID