假設我們有一個包含多個事物描述的列表。描述由逗號分隔的單詞組成。讓我們以下列表爲例(每一行是一個單獨的說明):解析不規則逗號分隔值的算法
white, leather, round
black, plastic, rectangular
wood, rectangular, brown
...
我們希望解析它們爲以下結構:(顏色,材料,形狀)
前兩個的描述可以直接映射到我們的結構。但第三個不能。因爲這些值的順序不同:材質,形狀,顏色。
所以真正的問題是:我們如何檢測這些不規則的條目並解析它們?
我想我們不知何故必須檢測每個詞所描述的部分。但我甚至不知道在哪裏以及如何開始。我也非常感謝任何提示,算法和論文(在相關算法上)。
編輯:對不起,忘了提及沒有已知和固定的詞彙。在不同的類別中可能會有相同的單詞。 但是,我認爲我錯過的最重要的事情是:大多數條目都是正規的。所以我想我們可以用它來成長字典。
數據是如何生成的?這是你做的事嗎?還是你從外部來源? – 2012-08-01 18:55:27
你對顏色,材質和形狀有一個已知和固定的詞彙嗎?是否有重疊(例如,顏色=沙子和材質=沙子)? – 2012-08-01 18:57:11
查看編輯的答案@TedHopp – sorgenkind 2012-08-01 19:25:58