2011-11-19 43 views
5

我想對烹飪食譜,特別是成分(稍後準備)進行一些自然語言處理。基本上我正在尋找創建我自己的一套POS標籤來幫助我確定配料系列的含義。用自定義標籤手工標記培訓集

例如,如果成分之一是: 3/4杯(輕包裝)平葉歐芹葉,分

我希望標籤來表示被列出的成分和quanitity,這是通常是一個數字,然後是一些度量單位。例如:

3 \ NUM-QTY/\ FRACTION4 \ NUM-QTY cup \ N-MEAS(輕輕地\ ADV包裝\ VD)[平葉\ ADJ parsley \ N] \ INGREDIENT離開\ N, VD

我發現的標籤here

我不確定的幾件事:

  1. 我應該使用自定義標籤,或者使用現有的預惡搞後,我應該做某種標記後,處理的?
  2. 如果我確實使用了自定義標籤,那麼製作培訓文本的最佳方式是隻通過一個成分列表並用手標記所有內容?

我覺得這種語言處理是如此特殊以至於在適用的設置上訓練一個標記器會是有益的,但我並不確定如何繼續。

謝謝!

回答

3

使用pattern.search庫。

python模式庫支持許多標籤[1],包括基數標籤(CD)。

一旦你標記了紅衣主教,分數是「紅衣主教/紅衣主教」或類似「紅衣主教/紅衣主教」。

關於數量,你應該建立一個烹飪數量的分類。 python模式庫也支持詞形化[2]。

我認爲使用pattern.search [2]可以構建一個適合您的數據的約束,並使用它在文本上執行模式搜索。

[1] http://www.clips.ua.ac.be/pages/mbsp-tags [2] http://www.clips.ua.ac.be/pages/pattern-search

+0

令人驚歎的東西 - 謝謝。我已經寫了分類法,所以我只需要將它插入到pattern.search。 – abroekhof