使用自然語言處理解析網站

我一般對數據挖掘感興趣，通過抓取網站，但我從來沒有找到很多關於我真正想要實現的過程的文檔。我非常喜歡編寫一套基本規則的想法，該規則定義瞭如何解析頁面，然後在出錯時對其進行培訓。使用自然語言處理解析網站

比方說，我想解析餐廳網站的菜單。我想創建一個工具，使我可以編寫一套規則，通常顯示菜單項目+價格的位置。然後，我可以運行該工具並告訴它正確解析了哪些菜單項，哪些錯誤。該工具將從這些更正中「學習」，並且下一次運行它時，我會得到更好的結果。

我已經看了一下NLTK工具包，它讓我想知道是否最好的方法來解決這個問題是與NLP工具，如NLTK。任何人都可以指向正確的方向尋找書籍和（理想情況下）可以幫助我開始的圖書館嗎？ NLP是否要走？謝謝！

2011-10-28 Kevin Eder

我在寫一組基本的定義如何解析頁面

規則的想法非常熱衷究竟你「解析頁」是什麼意思？解析頁面中的句子？做結構化information extraction？

該工具會從這些更正中「學習」，並且下次運行它時，我會得到更好的結果。

這是active learning的問題，這是相當先進的東西。你需要一個機器學習工具包;哪一個取決於你想要做什麼：分析樹或提取顯着信息。我相信NLTK有一些隨機解析器的支持。

2011-10-29 10:41:14

感謝您的回覆。我期待提取結構化/半結構化信息。您與主動學習的聯繫只是我尋找的那種建議。我知道這方面有很多東西需要學習......我注意到這個問題空間中有一些Python庫（例如MLPy）。 –

@Kevination：我也可以推薦[scikit-learn]（http://scikit-learn.org），其中我是其中一位維護者。我必須承認，我不熟悉MLPy，所以我不能評論它的質量。你真正想要的是一個具有序列和樹模型的工具包，比如CRF或結構化感知器/ SVM，所以要注意這些。 –

回答