非結構化文本結構化數據

我正在尋找有關以類似於Google日曆快速添加按鈕的方式構建非結構化文本的參考資料（教程，書籍，學術文獻）。非結構化文本結構化數據

我理解這可能會下的NLP類，但我只在從像「李維斯牛仔褲尺寸32 A0b293」

到會的過程很感興趣：品牌：李維斯，尺寸：32，等級：牛仔褲，代碼：A0b293

我想這應該是詞法分析和機器學習技術的一些組合。

我比較語言無關，但如果推寧願蟒蛇，Matlab或C++引用

感謝

2010-07-01 zenna

您的域名受到多大限制？ Google日曆快速添加只會分析日期和時間（並不總是那麼好）。 Google地圖搜索框僅處理地點。這樣做的難度取決於你的域名的範圍有多狹窄。（一個產品目錄？） – tcarobruce 2010-07-02 00:49:47

限制在處理例如 – zenna 2010-07-02 10:14:03

您需要提供有關文本的源的詳細信息（網頁？用戶輸入？）域名（它只是衣服？），潛在的格式和詞彙...

假設最壞的情況下，你需要開始學習NLP。一本非常好的免費書籍是NLTK的文檔：http://www.nltk.org/book。這也是對Python的一個很好的介紹，SW是免費的（適用於各種用途）。被警告：NLP很難。它並不總是有效。有時候這並不好玩。最先進的技術不在你想象的地方。

假設一個更好的場景（您的文本是半結構化的） - 一個很好的免費工具是pyparsing。有一本書，大量的例子，結果代碼非常有吸引力。

我希望這可以幫助...

2010-07-02 01:16:58

可能看看Toby Segaran的「集體智慧」。我似乎記得在一章中討論這個基礎知識。

2010-07-02 14:27:45 leancz

這個例子集合智能的最好書籍之一。 – jvc 2011-06-30 12:47:39

一些研發後，我發現，這個問題通常被稱爲信息提取，並已積累了一些文件，並將它們存儲在Mendeley集合

另外，作爲大魏斯指出NLTK對於python來說是一個很好的起點，並且本書的章節，具體看信息抽取

2010-07-04 23:09:28 zenna

這個鏈接似乎已經死了 – 2013-02-11 15:46:51

如果你只是在像你引用的例子那樣工作，你最好用一些m基於規則的，基於規則的，100％可預測，涵蓋90％可能遇到產品的情況。

您可以枚舉所有可能的品牌和類別的列表，並檢測哪些是輸入字符串中的哪些通常很少在這兩個列表的交集處。

另外兩個可以使用正則表達式輕鬆檢測和提取。（1-3位數字始終是大小等）

您的問題域看起來不夠大，不足以承擔更重的任務，如統計學習。

2010-07-05 04:34:17

同意，我懷疑谷歌日曆使用基於規則的系統（認爲正則表達式）做解析。從不確定的文本中提取信息時，機器學習更有用。但是，如果你的域名是相當知名的，並且輸入字符串是有限的，那麼你可以逃脫規則。 – Thien 2010-07-08 19:22:32

回答