2010-07-01 150 views
8

我正在尋找有關以類似於Google日曆快速添加按鈕的方式構建非結構化文本的參考資料(教程,書籍,學術文獻)。非結構化文本結構化數據

我理解這可能會下的NLP類,但我只在從像「李維斯牛仔褲尺寸32 A0b293」

到會的過程很感興趣:品牌:李維斯,尺寸:32,等級:牛仔褲,代碼:A0b293

我想這應該是詞法分析和機器學習技術的一些組合。

我比較語言無關,但如果推寧願蟒蛇,Matlab或C++引用

感謝

+0

您的域名受到多大限制? Google日曆快速添加只會分析日期和時間(並不總是那麼好)。 Google地圖搜索框僅處理地點。這樣做的難度取決於你的域名的範圍有多狹窄。(一個產品目錄?) – tcarobruce 2010-07-02 00:49:47

+0

限制在處理例如 – zenna 2010-07-02 10:14:03

回答

7

您需要提供有關文本的源的詳細信息(網頁?用戶輸入?)域名(它只是衣服?),潛在的格式和詞彙...

假設最壞的情況下,你需要開始學習NLP。一本非常好的免費書籍是NLTK的文檔:http://www.nltk.org/book。這也是對Python的一個很好的介紹,SW是免費的(適用於各種用途)。被警告:NLP很難。它並不總是有效。有時候這並不好玩。最先進的技術不在你想象的地方。

假設一個更好的場景(您的文本是半結構化的) - 一個很好的免費工具是pyparsing。有一本書,大量的例子,結果代碼非常有吸引力。

我希望這可以幫助...

1

可能看看Toby Segaran的「集體智慧」。我似乎記得在一章中討論這個基礎知識。

+0

這個例子集合智能的最好書籍之一。 – jvc 2011-06-30 12:47:39

0

如果你只是在像你引用的例子那樣工作,你最好用一些m基於規則的,基於規則的,100%可預測,涵蓋90%可能遇到產品的情況。

您可以枚舉所有可能的品牌和類別的列表,並檢測哪些是輸入字符串中的哪些通常很少在這兩個列表的交集處。

另外兩個可以使用正則表達式輕鬆檢測和提取。 (1-3位數字始終是大小等)

您的問題域看起來不夠大,不足以承擔更重的任務,如統計學習。

+0

同意,我懷疑谷歌日曆使用基於規則的系統(認爲正則表達式)做解析。從不確定的文本中提取信息時,機器學習更有用。但是,如果你的域名是相當知名的,並且輸入字符串是有限的,那麼你可以逃脫規則。 – Thien 2010-07-08 19:22:32