0

我有一個商店中的物品數據庫。他們都是蔬菜,水果,堅果,漿果等......我需要對它們進行分類。例如,不同類型的馬鈴薯,我應該組在一組 - 土豆,西紅柿 - 番茄等...店內自動分類商品,有可能嗎?

最直觀的方法是使用規則分組,例如,如果一個項目的名稱包含字potato它應該分組類別potatoes等...

但有很多類別,我正在尋找自動方法。例如尋找一組項目中最常用的單詞。

我確定我不是第一個解決這個問題的人,因此應該至少部分地解決這個問題。也許有些庫可以幫助我,神經網絡。

預先感謝您。

P.S.最好的解決方案是基於Java的解決方案,但不是必須的。

回答

1

從我從你的(雖然缺乏)例如明白了,你可以做以下幾點:

  1. 符號化(在你的情況 - 只拆分單詞,去除標點符號)
  2. 詞幹(搬運工詞幹會做)
  3. 移除停止字

大功告成。您可以使用結果進行標記/分類。 在處理這些過程中有很多問題,例如: Tokenizer, Stop Word Removal, Stemming in Java