2014-04-21 113 views
3

最近我正在研究我的課程項目,它是一個可以自動幫助填充基於用戶聲音的消費表單的android應用程序。因此,這裏是一個例句:
enter image description here在這種情況下應該使用哪種機器學習模型?

所以我想要做的是讓應用程序自動填寫表格,我的形式有幾個字段:時間(昨天),位置(麥克唐納),成本(10個美元),類型(食品)。在這裏,「類型」字段將包括食物,購物,運輸等。

我已經使用了單詞拆分庫將句子拆分成幾個部分並解析它,所以我已經可以提取時間,位置和成本從用戶的聲音領域。

我想要做的是用某種機器學習模型推導出「類型」字段。所以應該有一些記錄提前,用戶手動輸入來訓練模型。在訓練之後,當新記錄進入時,我首先提取時間,位置和成本字段,然後根據模型計算類型字段。

但我不知道如何表示位置字段,我應該使用字典包含許多着名的位置並使用索引來表示位置?如果是這樣,我應該使用哪種機器學習方法來模擬這個要求?

+0

你需要檢查**自然語言處理**。另見:http://www.nltk.org/book/ch05.html – emeth

+0

@mskimm我已經使用分詞庫來分割句子,可以獲得時間,成本,位置字段,但我不知道我應該如何使用什麼機器學習模型來推斷「類型」字段。 –

+0

你想尋找信息提取。這是一個序列標記問題---看看條件隨機場作爲一種技術 –

回答

0

我會從Naive Bayes分類器開始。下面的鏈接應該瞭解它有用:

不知時間和成本是歧視/相比,位置爲你的任務信息。

一般來說,看下面的鏈接,文本數據的工作(即使你不知道蟒蛇應該是有用):

0

它應該包括三個階段:

  1. 特徵表示:

一種表示特徵的方法是Bag-of-Word表示法,它可以修復字典的順序並使用詞頻矢量來表示文檔。有關詳細信息,請參見https://en.wikipedia.org/wiki/Bag-of-words_model

  1. 數據和標籤收集:

基本上,在這個階段,你應該準備一些[功能] - [類型]對培訓的模式,這可能是乏味的或昂貴的。如果您已經發布了您的應用,並且收集了很多[句子] - [類型]對(可能由應用用戶選擇),則可以提取這些功能並構建一個訓練集。

  1. 學習模型:

Cdeepakroy曾建議該模型的一個不錯的選擇:樸素貝葉斯,這對於這樣的分類任務非常有效的。在這個階段,你可以找到一個合適的包裹,插入你的訓練數據,並享受它返回的分類器。

相關問題