2011-10-28 29 views
3

我一般對數據挖掘感興趣,通過抓取網站,但我從來沒有找到很多關於我真正想要實現的過程的文檔。我非常喜歡編寫一套基本規則的想法,該規則定義瞭如何解析頁面,然後在出錯時對其進行培訓。使用自然語言處理解析網站

比方說,我想解析餐廳網站的菜單。我想創建一個工具,使我可以編寫一套規則,通常顯示菜單項目+價格的位置。然後,我可以運行該工具並告訴它正確解析了哪些菜單項,哪些錯誤。該工具將從這些更正中「學習」,並且下一次運行它時,我會得到更好的結果。

我已經看了一下NLTK工具包,它讓我想知道是否最好的方法來解決這個問題是與NLP工具,如NLTK。任何人都可以指向正確的方向尋找書籍和(理想情況下)可以幫助我開始的圖書館嗎? NLP是否要走?謝謝!

回答

2

我在寫一組基本的定義如何解析頁面

規則的想法非常熱衷究竟你「解析頁」是什麼意思?解析頁面中的句子?做結構化information extraction

該工具會從這些更正中「學習」,並且下次運行它時,我會得到更好的結果。

這是active learning的問題,這是相當先進的東西。你需要一個機器學習工具包;哪一個取決於你想要做什麼:分析樹或提取顯着信息。我相信NLTK有一些隨機解析器的支持。

+0

感謝您的回覆。我期待提取結構化/半結構化信息。您與主動學習的聯繫只是我尋找的那種建議。我知道這方面有很多東西需要學習......我注意到這個問題空間中有一些Python庫(例如MLPy)。 –

+0

@Kevination:我也可以推薦[scikit-learn](http://scikit-learn.org),其中我是其中一位維護者。我必須承認,我不熟悉MLPy,所以我不能評論它的質量。你真正想要的是一個具有序列和樹模型的工具包,比如CRF或結構化感知器/ SVM,所以要注意這些。 –