2013-02-24 69 views
0

是否有度量衡量文本信息的度量標準?使用NLP測量文本中豐富的信息

我想在任何可以可靠地顯示文本中的獨特信息段的任何方面。使用頻率分佈或獨特單詞的簡單度量標準是可以的,但它們並不能在句子中顯示獨特的信息。

使用編碼方法我將不得不手動編碼每個句子/單詞或任何可以作爲文本中獨特信息的內容,但這可能需要一段時間。所以,我想知道我是否可以使用NLP作爲替代方案。

UPDATE

作爲一個例子:

Navtilos,這是在1928年

噴發創建如果我是使用編碼分析聖托裏尼火山的小火山胰島,我可以統計4個獨特的信息點:什麼是Navtilos,它在哪裏,它是如何創建的以及何時。

顯然,一個人解釋不同於計算機的文本。我只是想知道是否有措施能夠在句子/文本中識別獨特的信息。它不必產生與我的結果相同的結果,但在不同的句子中可靠。

頻率分佈可能有效,但我想知道是否有其他指標。

+1

我確定有一個真正的問題隱藏在那裏,但我找不到它,請嘗試優化您的問題,包括[您嘗試過的](http://whathaveyoutried.com),然後嘗試使用示例或來源。 – 2013-02-24 13:02:57

+0

我不能肯定地說,但它幾乎聽起來像你想運行[命名實體識別器](http://nlp.stanford.edu/software/CRF-NER.shtml)(對不起,Java,但它是AFAIK中最好的一個),並且既然你試圖量化句子中的「信息量」,那麼信息的數量就只是實體的數量,不是嗎?道歉,如果我錯過了什麼。 – dmn 2013-02-25 20:18:13

回答

3

您似乎在尋找的是關鍵字/術語提取器(例如,關鍵字提取器列表,請參閱this,「外部鏈接」)。提取器將提取包含一個或多個單詞的短語,這些單詞可以捕獲文本中提到的一些概念,但不會將它們分類爲類(因爲命名實體識別器會這樣做)。

例如,參見這個demo。從你的例子句子,它提取:

small volcanic islet 
Navtilos 
Santorini 

如果你有大量的文件,然後你可以使用每個關鍵字的頻率分佈跨文檔來衡量它是每個文檔具體怎麼(假設的唯一性關鍵字到文檔反映了它描述文檔內容的程度)。爲此,您可以使用像tf-idf這樣的措施。