2016-05-10 40 views
1

我有一個Apache Spark應用程序,用scala編寫,它對收到的輸入數據進行了一些基本處理。輸入數據是來自文本文件的句子。我需要用購買意向進行分類。例如,如果句子如下所示:「哪裏可以買到藍色鞋?」,那麼這就算爲一個。Apache Spark:檢測購買意圖的句子

我可以用什麼分類器/ ML程序來構建它?一個scala/java工具將是合適的。我是NLP/ML的新手。

任何幫助表示讚賞。

回答

1

您的應用程序本質上是一個二元分類問題。因此,您需要:

  1. 準備標記的數據作爲訓練數據集:如果每個句子有購買意向,則標記爲1;如果沒有,則標記爲1。
  2. 特徵轉換:您需要將自然語言句子轉換爲數字特徵。請參考TF-IDF方法。

對於二元分類器,您實際上有多種選擇,例如樸素貝葉斯,SVM,決策樹等。請檢查Spark doc是否支持分類器。