2016-07-20 102 views
0

我一直在研究一個項目,要求我根據產品的描述給出關鍵字/關鍵詞建議。關鍵字建議算法

我目前擁有的產品:產品描述,產品類別(可能有可能不存在)。

我想要什麼:機器生成的關鍵字/基於描述的關鍵字句。

我做了什麼研究:(基於NLP的方法)這個問題可以分解成兩個獨立的方法。

  • 不使用過去的數據:剛纔總結當前的描述
  • 方法: - 符號化,制止,拆除停用詞等(預處理)
  • 淺層NLP(選區解析),只保留NP & JJ短語。

這將是一種不使用數據庫中的描述的方法。

我正在尋找的是一種更好的方法,它使用ML算法並使用我以前的產品描述數據。

我在考慮在整個數據集上應用淺層解析,然後給出超過N個產品遇到的關鍵字。

什麼算法或方法會派上用場? 如何使用我的數據?

+0

您是否有一大組產品中已經包含關鍵字的產品,您可以使用它們進行學習? –

+0

是的,我確實有關於「某些」產品說明的關鍵字。 –

回答

0

嘗試看看基本的車型,如:詞頻或TF-IDF,這給你一些重要的話:https://en.wikipedia.org/wiki/Tf%E2%80%93idf, 然後搜索文本聚類(對於集羣文本被彼此相關組)和欄目檢測方法(這可以幫助你找到相關的文件突出詞和話題)

然後你可以找到每個羣集(也可以考慮的文件類別)的關鍵字,並試圖找到最相關的詞換句話說

我建議讀一些/或w本書的孔洞章節:http://nlp.stanford.edu/IR-book/https://en.wikipedia.org/wiki/Tf%E2%80%93idf

+0

我可以做文檔(描述)相似性(基本上基於TF-IDF)嗎?然後建議在類似文件列表中的大多數文件中找到的關鍵字? –