我正在尋找有關以類似於Google日曆快速添加按鈕的方式構建非結構化文本的參考資料(教程,書籍,學術文獻)。非結構化文本結構化數據
我理解這可能會下的NLP類,但我只在從像「李維斯牛仔褲尺寸32 A0b293」
到會的過程很感興趣:品牌:李維斯,尺寸:32,等級:牛仔褲,代碼:A0b293
我想這應該是詞法分析和機器學習技術的一些組合。
我比較語言無關,但如果推寧願蟒蛇,Matlab或C++引用
感謝
我正在尋找有關以類似於Google日曆快速添加按鈕的方式構建非結構化文本的參考資料(教程,書籍,學術文獻)。非結構化文本結構化數據
我理解這可能會下的NLP類,但我只在從像「李維斯牛仔褲尺寸32 A0b293」
到會的過程很感興趣:品牌:李維斯,尺寸:32,等級:牛仔褲,代碼:A0b293
我想這應該是詞法分析和機器學習技術的一些組合。
我比較語言無關,但如果推寧願蟒蛇,Matlab或C++引用
感謝
您需要提供有關文本的源的詳細信息(網頁?用戶輸入?)域名(它只是衣服?),潛在的格式和詞彙...
假設最壞的情況下,你需要開始學習NLP。一本非常好的免費書籍是NLTK的文檔:http://www.nltk.org/book。這也是對Python的一個很好的介紹,SW是免費的(適用於各種用途)。被警告:NLP很難。它並不總是有效。有時候這並不好玩。最先進的技術不在你想象的地方。
假設一個更好的場景(您的文本是半結構化的) - 一個很好的免費工具是pyparsing。有一本書,大量的例子,結果代碼非常有吸引力。
我希望這可以幫助...
一些研發後,我發現,這個問題通常被稱爲信息提取,並已積累了一些文件,並將它們存儲在Mendeley集合
http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/
另外,作爲大魏斯指出NLTK對於python來說是一個很好的起點,並且本書的章節,具體看信息抽取
這個鏈接似乎已經死了 – 2013-02-11 15:46:51
如果你只是在像你引用的例子那樣工作,你最好用一些m基於規則的,基於規則的,100%可預測,涵蓋90%可能遇到產品的情況。
您可以枚舉所有可能的品牌和類別的列表,並檢測哪些是輸入字符串中的哪些通常很少在這兩個列表的交集處。
另外兩個可以使用正則表達式輕鬆檢測和提取。 (1-3位數字始終是大小等)
您的問題域看起來不夠大,不足以承擔更重的任務,如統計學習。
同意,我懷疑谷歌日曆使用基於規則的系統(認爲正則表達式)做解析。從不確定的文本中提取信息時,機器學習更有用。但是,如果你的域名是相當知名的,並且輸入字符串是有限的,那麼你可以逃脫規則。 – Thien 2010-07-08 19:22:32
您的域名受到多大限制? Google日曆快速添加只會分析日期和時間(並不總是那麼好)。 Google地圖搜索框僅處理地點。這樣做的難度取決於你的域名的範圍有多狹窄。(一個產品目錄?) – tcarobruce 2010-07-02 00:49:47
限制在處理例如 – zenna 2010-07-02 10:14:03