2015-10-14 25 views
0

我做對大量的文件使用TD-IDF關鍵詞提取。當然,我正在根據n-gram分解每個句子。更特別的是,我正在使用三克。但是,這不是將每個句子拆分爲包含關鍵字的整數的最佳方式。例如,像「三重心臟旁路」這樣的名詞短語可能並不總是被檢測爲一個術語。爲關鍵字提取任務分割句子的最佳方式是什麼?

將每個句子分塊爲其組成元素的另一種替代方法看起來是詞性標註的一部分,並且chunkingOpen NLP中。在這種方法中,像「三重心臟旁路」這樣的短語總是被整體提取出來,但缺點是在TF-IDF中,提取的術語(短語)的頻率急劇下降。

沒有人有一方或這兩種方法的任何建議或有任何其他想法,以提高關鍵字的質量?

回答

0

的是:

  1. 您的應用程序的目標是什麼? - 影響標記化規則並定義關鍵字的質量

  2. 文檔的類型? - 如果您有論壇數據或新聞文章數據,那麼chunking是不一樣的。

您可以自己實現一些邊界識別器,或使用openNLP中的統計模型。

典型的管道是,你應該先記號化儘可能簡單,適用停止詞去除(語言相關),然後如果需要的話詞性標註爲基礎的過濾(但是這是一個代價高昂的操作)。

其他選項:java.text.BreakIterator,com.ibm.icu.text.BreakIterator,com.ibm.icu.text.RuleBasedBreakIterator ...

相關問題