我一般對數據挖掘感興趣,通過抓取網站,但我從來沒有找到很多關於我真正想要實現的過程的文檔。我非常喜歡編寫一套基本規則的想法,該規則定義瞭如何解析頁面,然後在出錯時對其進行培訓。使用自然語言處理解析網站
比方說,我想解析餐廳網站的菜單。我想創建一個工具,使我可以編寫一套規則,通常顯示菜單項目+價格的位置。然後,我可以運行該工具並告訴它正確解析了哪些菜單項,哪些錯誤。該工具將從這些更正中「學習」,並且下一次運行它時,我會得到更好的結果。
我已經看了一下NLTK工具包,它讓我想知道是否最好的方法來解決這個問題是與NLP工具,如NLTK。任何人都可以指向正確的方向尋找書籍和(理想情況下)可以幫助我開始的圖書館嗎? NLP是否要走?謝謝!
感謝您的回覆。我期待提取結構化/半結構化信息。您與主動學習的聯繫只是我尋找的那種建議。我知道這方面有很多東西需要學習......我注意到這個問題空間中有一些Python庫(例如MLPy)。 –
@Kevination:我也可以推薦[scikit-learn](http://scikit-learn.org),其中我是其中一位維護者。我必須承認,我不熟悉MLPy,所以我不能評論它的質量。你真正想要的是一個具有序列和樹模型的工具包,比如CRF或結構化感知器/ SVM,所以要注意這些。 –