是否有度量衡量文本信息的度量標準?使用NLP測量文本中豐富的信息
我想在任何可以可靠地顯示文本中的獨特信息段的任何方面。使用頻率分佈或獨特單詞的簡單度量標準是可以的,但它們並不能在句子中顯示獨特的信息。
使用編碼方法我將不得不手動編碼每個句子/單詞或任何可以作爲文本中獨特信息的內容,但這可能需要一段時間。所以,我想知道我是否可以使用NLP作爲替代方案。
UPDATE
作爲一個例子:
Navtilos,這是在1928年
噴發創建如果我是使用編碼分析聖托裏尼火山的小火山胰島,我可以統計4個獨特的信息點:什麼是Navtilos,它在哪裏,它是如何創建的以及何時。
顯然,一個人解釋不同於計算機的文本。我只是想知道是否有措施能夠在句子/文本中識別獨特的信息。它不必產生與我的結果相同的結果,但在不同的句子中可靠。
頻率分佈可能有效,但我想知道是否有其他指標。
我確定有一個真正的問題隱藏在那裏,但我找不到它,請嘗試優化您的問題,包括[您嘗試過的](http://whathaveyoutried.com),然後嘗試使用示例或來源。 – 2013-02-24 13:02:57
我不能肯定地說,但它幾乎聽起來像你想運行[命名實體識別器](http://nlp.stanford.edu/software/CRF-NER.shtml)(對不起,Java,但它是AFAIK中最好的一個),並且既然你試圖量化句子中的「信息量」,那麼信息的數量就只是實體的數量,不是嗎?道歉,如果我錯過了什麼。 – dmn 2013-02-25 20:18:13