我想分析文檔中的項目,如字母,雙字母,單詞等,並比較它們在文檔中的頻率,以及它們對於大型語料庫文檔。將文檔中的文本頻率與語料庫中的頻率進行比較
這個想法是,諸如「如果」,「和」,「該」這樣的詞在所有文檔中都是常見的,但是在該文檔中一些詞比在語料庫中通常更常見。
這必須是非常標準的。這叫什麼?這樣做明顯的方式,我總是有一個問題,在我的文檔中的新詞,但沒有在語料庫評級無限重要。這是如何處理的?
我想分析文檔中的項目,如字母,雙字母,單詞等,並比較它們在文檔中的頻率,以及它們對於大型語料庫文檔。將文檔中的文本頻率與語料庫中的頻率進行比較
這個想法是,諸如「如果」,「和」,「該」這樣的詞在所有文檔中都是常見的,但是在該文檔中一些詞比在語料庫中通常更常見。
這必須是非常標準的。這叫什麼?這樣做明顯的方式,我總是有一個問題,在我的文檔中的新詞,但沒有在語料庫評級無限重要。這是如何處理的?
很可能您已經檢查了tf-idf 或okapi_bm25家族的其他一些指標。
還可以檢查natural language processing toolkit nltk一些現成的解決方案
UPDATE: 作爲小說的話,平滑應適用:Good-Turing,拉普拉斯等
它屬於線性分類器的標題,樸素貝葉斯分類器是最知名的形式(由於其在攻擊真實世界分類問題方面非常簡單和穩健)。
在閱讀您的答案後,我對「樸素貝葉斯分類器」做了大量的閱讀,並發現該區域令人着迷。但我看不出與我的問題有直接關係,似乎「tf-idf」涵蓋了這個問題。 – hippietrail 2011-04-30 21:40:38
可你什麼指標你的文本做你展開需要? – matcheek 2010-12-07 02:14:36
@matcheek:我能找到的大多數文檔都是關於找到最適合搜索一個或多個單詞的文檔,但我最感興趣的是在文檔中找到「最有趣」的單詞/短語/ ngrams。像亞馬遜的「統計不可思議的短語」。 – hippietrail 2010-12-08 00:14:23