我做對大量的文件使用TD-IDF關鍵詞提取。當然,我正在根據n-gram分解每個句子。更特別的是,我正在使用三克。但是,這不是將每個句子拆分爲包含關鍵字的整數的最佳方式。例如,像「三重心臟旁路」這樣的名詞短語可能並不總是被檢測爲一個術語。爲關鍵字提取任務分割句子的最佳方式是什麼?
將每個句子分塊爲其組成元素的另一種替代方法看起來是詞性標註的一部分,並且chunking在Open NLP中。在這種方法中,像「三重心臟旁路」這樣的短語總是被整體提取出來,但缺點是在TF-IDF中,提取的術語(短語)的頻率急劇下降。
沒有人有一方或這兩種方法的任何建議或有任何其他想法,以提高關鍵字的質量?